王舞宇 章 寧 范 丹 王 熙
投資組合管理是一個十分復(fù)雜的非結(jié)構(gòu)化決策過程,涉及金融預(yù)測、投資決策分析、組合優(yōu)化等一系列過程,受到宏觀經(jīng)濟、投資者心理、政府政策等多方面的影響(Paiva等,2019[1];趙丹丹和丁建臣,2019[2])。隨著金融市場的不斷變化,市場上的金融資產(chǎn)信息也在發(fā)生著改變,投資者不僅要對已持有的投資組合內(nèi)部資產(chǎn)進行調(diào)整,還需要結(jié)合市場狀況來決定買進市場上的哪些資產(chǎn)同時賣出投資組合中的哪些資產(chǎn),以實現(xiàn)投資效用的最大化。根據(jù)適應(yīng)性市場假說理論,金融市場是一個復(fù)雜的動態(tài)系統(tǒng),任何單一的優(yōu)化方法都不可能永久獲益,隨著市場的有效性逐漸提高,一些模型的獲利機會就會消失,也許在某一段時期模型A表現(xiàn)較好,而在另一段時期模型B表現(xiàn)更好,難以保證投資者的利益最大化。有效的投資組合模型應(yīng)該在感知市場狀態(tài)變化的同時,進行適應(yīng)性的調(diào)整并采取相應(yīng)的資產(chǎn)交易行動,以更好地服務(wù)于投資組合管理(梁天新等,2019[3])。
隨著金融大數(shù)據(jù)的發(fā)展,巨大的數(shù)據(jù)量對數(shù)據(jù)存儲、數(shù)據(jù)分析和計算技術(shù)都提出了更高的要求(黃乃靜和于明哲,2018[4]),這無疑增加了投資組合管理相關(guān)研究的難度。傳統(tǒng)的統(tǒng)計學(xué)方法并不適合用于分析復(fù)雜、高維度、具有噪音的金融市場數(shù)據(jù)序列,因為統(tǒng)計學(xué)分析往往基于有大量約束的條件進行建模,而且這些假設(shè)在現(xiàn)實生活中往往不能完全成立,所以模型結(jié)果受到了前提條件的限制(L?ngkvist等,2014[5])。而早期的機器學(xué)習(xí)方法的表現(xiàn)在很大程度上依賴于人工特征設(shè)計,這將會對結(jié)果造成一定的干擾,無法對復(fù)雜的金融數(shù)據(jù)進行準(zhǔn)確建模(Wang等,2020[6])。近幾年,基于機器學(xué)習(xí)的人工智能系列方法的出現(xiàn)為以上問題提供了新的思路。其中,強化學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域的一種比較前沿的方法,與監(jiān)督學(xué)習(xí)不同,它并不僅僅依靠已知的、固定的數(shù)據(jù)進行學(xué)習(xí),而是在不斷變化的外界環(huán)境中,通過大量、多次的試錯學(xué)習(xí),尋找到產(chǎn)生最佳結(jié)果的路徑(Park等,2019[7])。
因此,本研究將采用強化學(xué)習(xí)提出一種基于動態(tài)交易的智能投資組合優(yōu)化方法。與以往研究相比,本研究所提出的方法主要有以下兩點優(yōu)勢:第一,在投資組合的管理過程中,不僅考慮了資產(chǎn)本身信息,還考慮了外部市場環(huán)境對投資組合管理過程的影響,能夠依據(jù)當(dāng)前市場狀態(tài)和資產(chǎn)信息自動轉(zhuǎn)換投資組合優(yōu)化模式,以應(yīng)對不同的市場風(fēng)格變化;第二,投資者可以依據(jù)自己的投資風(fēng)險偏好來選擇相應(yīng)的目標(biāo)函數(shù),根據(jù)目標(biāo)函數(shù)最大化原則,通過投資組合內(nèi)部資產(chǎn)與外部資產(chǎn)池動態(tài)交易的形式,來實時調(diào)整投資組合資產(chǎn)構(gòu)成及資產(chǎn)配置。也就是說,本研究中的投資組合優(yōu)化不再局限于投資組合內(nèi)部資產(chǎn)配置的調(diào)整,而是能夠根據(jù)市場狀態(tài)、資產(chǎn)信息、投資者風(fēng)險偏好來實時更新資產(chǎn)構(gòu)成和相應(yīng)的投資比例。
隨著智能時代的來臨以及金融數(shù)據(jù)分析需求的提升,利用計算機進行自我學(xué)習(xí)和大量計算,并實現(xiàn)投資組合的管理與優(yōu)化已經(jīng)成為可能,越來越多的學(xué)者開始將人工智能作為研究解決方案的支撐,并證明人工智能方法比傳統(tǒng)的統(tǒng)計學(xué)模型能更好地處理非線性、非平穩(wěn)特征問題。
目前在國內(nèi)外關(guān)于智能投資組合優(yōu)化研究中,很多學(xué)者采用傳統(tǒng)的機器學(xué)習(xí)技術(shù)對金融財務(wù)數(shù)據(jù)或交易數(shù)據(jù)進行分類匯總進而建立模型來為投資者選擇和優(yōu)化投資組合,主要應(yīng)用的方法包括:專家系統(tǒng)(Yunusoglu和Selim,2013[8])、支持向量機(Paiva等,2019[1])、進化算法(齊岳等,2015[9])、梯度下降(吳婉婷等,2019[10])、人工神經(jīng)網(wǎng)絡(luò)(Freitas等,2009[11])等。例如,Paiva等(2019)[1]結(jié)合支持向量機和均值方差模型兩種方法進行了投資組合的優(yōu)化研究,他們首先利用支持向量機對資產(chǎn)的收益變化趨勢進行了分類,篩選出預(yù)測收益更高的一些資產(chǎn)作為投資組合的組成成分,再利用均值方差模型來優(yōu)化投資組合,從而實現(xiàn)收益最大化的目標(biāo)。此外,深度學(xué)習(xí)是機器學(xué)習(xí)中一種對數(shù)據(jù)進行表征學(xué)習(xí)的算法,由Hinton和Osidero(2006)[12]提出,它擅長處理復(fù)雜的高維數(shù)據(jù),且不依賴任何先驗知識和假設(shè),是一種更加貼近實際金融市場數(shù)據(jù)特征的方法,也是推動智能金融的關(guān)鍵技術(shù)(蘇治等,2017[13];Chong等,2017[14])。深度學(xué)習(xí)在投資組合構(gòu)建與優(yōu)化中的應(yīng)用非常少。目前只找到兩篇這方面的研究,例如,Heaton等(2016)[15]基于經(jīng)典的均值-方差理論(Markowitz,1952[16])和深度學(xué)習(xí)構(gòu)建了一個深度資產(chǎn)組合理論,該理論首先基于深度自編碼器對金融市場信息進行編碼,然后再解碼從而形成一個符合目標(biāo)函數(shù)的資產(chǎn)組合,實驗結(jié)果表明該投資組合的表現(xiàn)優(yōu)于基準(zhǔn)模型IBB指數(shù)的表現(xiàn)。Yun等(2020)[17]提出了一個兩階段的深度學(xué)習(xí)框架來訓(xùn)練投資組合管理模型,他們首先利用主成分分析對各個組的資產(chǎn)數(shù)據(jù)特征進行降維,然后根據(jù)市場指標(biāo)將高度相關(guān)的資產(chǎn)分為同一組,針對每一組采用深度學(xué)習(xí)網(wǎng)絡(luò)來建立一種預(yù)測模型,最后再次結(jié)合深度學(xué)習(xí)方法和均值方差模型對不同組的投資組合權(quán)重進行預(yù)測,從而構(gòu)建并優(yōu)化了投資組合。
強化學(xué)習(xí)方法側(cè)重于提出解決問題的策略,可以通過多次試錯來調(diào)整智能體行為從而找到最優(yōu)結(jié)果(梁天新等,2019[3];Khushi和Meng,2019[18]),具有決策能力,故強化學(xué)習(xí)方法在投資組合的構(gòu)建與優(yōu)化過程方面的應(yīng)用相對比深度學(xué)習(xí)多,但文獻數(shù)量仍十分有限。目前在投資組合優(yōu)化領(lǐng)域應(yīng)用較多的強化學(xué)習(xí)方法主要有四種。第一種方法是循環(huán)強化學(xué)習(xí)。Aboussalah和Lee(2020)[19]提出了一種層疊式深度動態(tài)循環(huán)強化學(xué)習(xí)架構(gòu),該方法能夠捕捉最新的市場變化情況并重新平衡和優(yōu)化投資組合,他們以S&P500不同板塊的10只股票數(shù)據(jù)為研究樣本,進行了20輪的訓(xùn)練和測試,實驗結(jié)果表明采用他們提出的方法所優(yōu)化后的投資組合實現(xiàn)了較好的市場表現(xiàn)。第二種方法是策略梯度方法。這是一種直接逼近的優(yōu)化策略,直接在策略空間進行求解得到策略(梁天新等,2019[3])。Jiang等(2017)[20]運用強化學(xué)習(xí)中的梯度策略研究了加密貨幣中的投資組合優(yōu)化問題,在該框架中,智能體(Agent)是在金融市場環(huán)境中執(zhí)行操作的虛擬投資組合經(jīng)理,環(huán)境包括加密貨幣市場上所有可用的資產(chǎn)及所有市場參與者投資組合的期望,投資組合的累計收益回報是獎勵函數(shù),通過將資金不斷分配到不同的加密貨幣,獲得更大累計收益,結(jié)果證明基于該方法提出的加密貨幣投資組合可以在50天內(nèi)達到4倍的收益回報,明顯優(yōu)于傳統(tǒng)的投資組合管理方法。第三種方法是Actor-Critic算法,又被稱作“行動者-評論家”方法。例如,García-Galicia等(2019)[21]結(jié)合馬爾可夫模型和強化學(xué)習(xí)中的Actor-Critic算法,提出了連續(xù)時間離散狀態(tài)投資組合管理的強化學(xué)習(xí)模型,根據(jù)觀察到的金融資產(chǎn)價格數(shù)據(jù),每個狀態(tài)的概率轉(zhuǎn)移率和獎勵矩陣構(gòu)成了鏈結(jié)構(gòu)的特征,并用于優(yōu)化和確定投資組合中不同資產(chǎn)的權(quán)重,進而找到了波動率最低的投資組合。第四種方法是深度強化學(xué)習(xí)方法,即深度學(xué)習(xí)和強化學(xué)習(xí)方法的結(jié)合。Vo等(2019)[22]基于深度強化學(xué)習(xí)方法研究了社會責(zé)任投資組合的優(yōu)化問題,這種組合把公司的環(huán)境、社交和治理三方面也考慮了進來。首先他們采用深度學(xué)習(xí)來預(yù)測股票收益,然后利用均值方差模型進行投資組合的優(yōu)化,并基于強化學(xué)習(xí)對預(yù)測模型進行再訓(xùn)練,通過智能體的不斷學(xué)習(xí)和參數(shù)調(diào)整,最終實現(xiàn)了投資組合的有效自主再平衡。
通過對相關(guān)文獻梳理可知,以往相關(guān)研究存在以下兩點不足:其一,大多研究是直接選定幾種資產(chǎn)構(gòu)建投資組合來優(yōu)化投資組合,并未考慮外部市場資產(chǎn)池與投資組合內(nèi)部資產(chǎn)動態(tài)交互的交易情景。隨著金融市場的不斷變化,市場上的金融資產(chǎn)信息也在發(fā)生著改變,投資者除了對已持有的投資組合內(nèi)部固定資產(chǎn)進行調(diào)整外,還需要結(jié)合市場狀況來決定買進市場上的哪些資產(chǎn)的同時賣出投資組合中的哪些資產(chǎn),以實現(xiàn)投資效用的最大化。其二,已有研究大多忽視了投資過程中的風(fēng)險因素,一般以收益率、累計收益率最大化作為投資組合優(yōu)化的目標(biāo)函數(shù)。但是這些純收益指標(biāo)無法體現(xiàn)出金融交易過程中發(fā)生的回撤情況。因此,有必要在投資組合優(yōu)化的過程中考慮包含風(fēng)險約束條件的目標(biāo)函數(shù)以更好地應(yīng)對市場風(fēng)格變化。
循環(huán)強化學(xué)習(xí)算法(Recurrent Reinforcement Lea-rning,RRL)由Moody等(1998)[23]提出,是一種利用即時市場信息不斷優(yōu)化效用測度的隨機梯度上升算法。RRL在自適應(yīng)性上有一定的優(yōu)勢,易于根據(jù)當(dāng)前金融信息自動轉(zhuǎn)換交易風(fēng)格,可以提供即時反饋來優(yōu)化策略,能夠自然地產(chǎn)生真實且有價值的行動或權(quán)重,而不依靠于值函數(shù)方法所需的離散化或者價格預(yù)測(梁天新等,2019[3])。RRL方法具有遞歸循環(huán)的特性,其核心思想在于當(dāng)前時刻所采取的行動不僅僅與當(dāng)前的市場環(huán)境有關(guān),還依賴于前一時刻所采取的行動(司偉鈺,2018)[24]。故循環(huán)強化學(xué)習(xí)在投資組合動態(tài)優(yōu)化方面的研究具有較大優(yōu)勢。
1.算法更新規(guī)則。
本研究主要采用循環(huán)強化學(xué)習(xí)RRL為投資組合進行資產(chǎn)配置,同時生成多/空交易信號。為了讓RRL方法能夠應(yīng)對金融交易市場的復(fù)雜變化情況,參考相關(guān)研究(Maringer和Ramtohul,2012[25];Hamilton和Susmel,1994[26])的研究,我們將體制轉(zhuǎn)換模型與循環(huán)強化學(xué)習(xí)方法相結(jié)合,提出了一種基于動態(tài)交易的自適應(yīng)的智能投資組合優(yōu)化方法(Ada-ptive Recurrent Reinforcement Learning,A+RRL),該方法可以在不同的市場環(huán)境狀態(tài)下選擇不同的神經(jīng)網(wǎng)絡(luò)權(quán)重來應(yīng)對市場風(fēng)格的變化。
在金融市場,市場環(huán)境狀態(tài)可以作為描述金融市場風(fēng)格的重要標(biāo)志之一(Aylward和Glen,2000[27];曾志平等,2017[28])。參考吳淑娥等(2012)[29]對牛市和熊市的劃分,我們以股票指數(shù)作為衡量市場狀態(tài)變化的指標(biāo)。我們將市場環(huán)境狀態(tài)分為兩類:牛市狀態(tài)和熊市狀態(tài)。具體來講,這種雙體制的循環(huán)強化學(xué)習(xí)模型可以描述如下:
Gt=[1+exp(-γ[qt-c])]-1
(1)
Ft=yt,1Gt+yt,2(1-Gt)
(2)
forj={1,2)
(3)
其中:公式(1)中的c表示體制轉(zhuǎn)換閾值;γ決定了轉(zhuǎn)換的平滑性;Gt代表不同的循環(huán)強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重,Gt∈[0,1];qt為指示變量,其主要作用是讓模型能夠在熊市和牛市之間進行有效轉(zhuǎn)換,以適應(yīng)不同的市場狀態(tài)。本研究選擇股票價格指數(shù)的平均收益率作為指示變量qt的重要衡量指標(biāo)。公式(2)中的yt,1和yt,2分別表示兩個不同的循環(huán)強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。公式(3)中的rt為對數(shù)收益率,可以表示為rt=log(pricet/pricet-1);wi,j代表對應(yīng)的神經(jīng)網(wǎng)絡(luò)權(quán)重,即神經(jīng)網(wǎng)絡(luò)中不同單元之間連接的強度;v為神經(jīng)網(wǎng)絡(luò)的閾值。A+RRL模型可以被看作由兩個RRL網(wǎng)絡(luò)組成,每個網(wǎng)絡(luò)對應(yīng)著一種市場狀態(tài)和交易風(fēng)格并有一組獨特的權(quán)重。而整個模型總輸出為Ft,它是單個神經(jīng)網(wǎng)絡(luò)yt,1和yt,2的加權(quán)之和,權(quán)重主要受到指示變量qt的影響。A+RRL模型的結(jié)構(gòu)如圖1所示,該模型的每個網(wǎng)絡(luò)對應(yīng)一個獨特的區(qū)域,在指標(biāo)變量qt轉(zhuǎn)換過程中,A+RRL可以在每個時間步選擇合適的網(wǎng)絡(luò),以應(yīng)對不同的市場風(fēng)格變化。在此過程中,參數(shù)更新可以在每一次訓(xùn)練數(shù)據(jù)的前向傳播過程中實現(xiàn)。
圖1 自適應(yīng)的循環(huán)強化學(xué)習(xí)模型
依據(jù)以上模型,我們將輸出信息簡寫為Ft=tanh(x′tθ),為交易信號,F(xiàn)t∈{-1,1};θ表示我們要訓(xùn)練的模型的一系列參數(shù);xt為一個向量,可以表示為xt=[1;rt…rt-M;Ft-1];M為要交易的時間序列,即交易周期。當(dāng)Ft>0時,投資者將持有多頭頭寸,則設(shè)Ft=1;當(dāng)Ft<0時,投資者將持有空頭頭寸,則設(shè)Ft=-1。rt為對數(shù)收益率,可以表示為rt=log(pricet/pricet-1)。持有的頭寸在t時刻的回報如公式(4)所示,其中,μ為固定數(shù)值的資產(chǎn)數(shù)量,在本研究中表示能夠交易的最大資產(chǎn)數(shù)量,δ為交易費用率。
Rt=μ×[Ft-1×rt-δ|Ft-Ft-1|]
(4)
給定交易信號Ft,模型將通過調(diào)整一系列參數(shù)θ來最大化目標(biāo)函數(shù)UT。在給定的交易周期T內(nèi),目標(biāo)函數(shù)UT對于參數(shù)θ的梯度更新的具體過程可以表示如下:
(5)
(6)
(7)
(8)
根據(jù)以上公式可知,dFt/dθ具有遞歸性質(zhì),依賴于前一時刻的動作。算法沿著梯度上升的方向θi+1=θi+ρdUT/dθ進行參數(shù)更新,可以將交易策略不斷優(yōu)化到目標(biāo)函數(shù)的最大值,其中ρ為學(xué)習(xí)率。
為了讓該模型可以用于投資組合優(yōu)化而不單單是交易單支資產(chǎn),當(dāng)循環(huán)強化學(xué)習(xí)用于優(yōu)化投資組合內(nèi)部的資產(chǎn)權(quán)重配置時,我們設(shè)定fit=logsig(x′itθi),其中,fit在時刻t對資產(chǎn)i的動作,這里指的是在不同時刻t對資產(chǎn)i的資產(chǎn)配置比例。logsig指的是log-sigmoid函數(shù)。于是我們可以得到以下公式:
(9)
最終模型的輸出是投資組合中各個資產(chǎn)的配置權(quán)重:
Fit=softmax(fit)
(10)
值得說明的是,我們使用Ft=tanh(x′tθ)作為激活函數(shù),從而得到每個資產(chǎn)在訓(xùn)練期間的交易信號,而fit=logsig(x′itθi)和公式(10)主要用于獲得投資組合內(nèi)資產(chǎn)的配置比例。在交易周期t,將投資組合資產(chǎn)i的交易信號Fit與相應(yīng)資產(chǎn)i的投資配置比例wit結(jié)合,就可以得出每一交易周期的投資組合優(yōu)化后的結(jié)果。由此我們可以得出:
(11)
2.目標(biāo)函數(shù)。
不同的目標(biāo)函數(shù)使得智能體學(xué)習(xí)的決策有所差異,從而導(dǎo)致投資組合優(yōu)化結(jié)果也會有所不同。在大多投資組合優(yōu)化研究中,目標(biāo)函數(shù)均為投資組合的收益,并未考慮相應(yīng)風(fēng)險因素。然而,投資收益的增加必然伴隨著風(fēng)險的發(fā)生,故有必要將風(fēng)險因素的約束條件納入投資組合管理過程中,以滿足不同投資者的投資需求。本研究從衡量投資組合績效的指標(biāo)中選取了兩個比較常用且具有代表性的收益-風(fēng)險綜合指標(biāo),分別為夏普比率(Sharpe ratio)和卡瑪比率(Calmar ratio),作為目標(biāo)函數(shù)。投資者可以根據(jù)個人偏好來自行選擇相應(yīng)的投資組合優(yōu)化目標(biāo)函數(shù)。微分形式為強化學(xué)習(xí)提供了一個非常有效的評估方法,有利于在強化學(xué)習(xí)模型訓(xùn)練的過程中直接優(yōu)化RRL相應(yīng)參數(shù)(Moody等,1998[23])。因此,在RRL模型部分,我們分別采用夏普比率和卡瑪比率的微分形式作為目標(biāo)函數(shù),然后通過性能函數(shù)來增加模型在線學(xué)習(xí)過程的收斂性,并在實時交易中適應(yīng)不斷變化的市場狀況。
(1)夏普比率。夏普比率是一個可以同時對收益與風(fēng)險加以綜合考慮的指標(biāo),表示的是單位風(fēng)險收益,衡量的是投資的穩(wěn)健性。夏普比率主要是為處理正向投資組合價值而設(shè)計的(Berutich等,2016[30]),也就是說,夏普比率將上漲和下跌的波動率視為同等位置。公式(12)表示的是T時間段內(nèi)夏普比率ST,其中δ為交易成本,E[Rt]為平均收益率,σ[Rt]為收益率的標(biāo)準(zhǔn)差,γf為無風(fēng)險利率。依據(jù)已有相關(guān)研究(Moody和Saffell,1999[31];Almahdi和Yang,2017[32]),本研究設(shè)定γf=0。
(12)
微分夏普比可以看成是一個滑動平均式夏普比率,公式(13)至公式(15)展示了微分夏普比率的具體推導(dǎo)過程。
(13)
At=At-1+η(Rt-At-1)=At-1+ηΔAt
(14)
(15)
At和Bt分別表示收益率的一階矩和二階矩陣,微分夏普比率將移動平均值擴展為了自適應(yīng)參數(shù)η的一階展開。微分夏普比率DSAt表達式如公式(16)所示:
(16)
(2)卡瑪比率。卡瑪比率也是一種經(jīng)過風(fēng)險調(diào)整的投資組合績效度量指標(biāo)。它描述的是收益和最大回撤之間的關(guān)系,是一個最大回撤風(fēng)險度量指標(biāo),度量從峰值到隨后的底部的最大累積損失。與夏普比率不同,卡瑪比率區(qū)分了波動的好壞,認為投資者更關(guān)心收益下跌時的波動率變化才是風(fēng)險,因為收益上漲帶來的高波動率符合投資者的投資需求,不應(yīng)視作風(fēng)險??梢园l(fā)現(xiàn),卡瑪比率對投資損失比夏普比率更加敏感,故將卡瑪比率作為目標(biāo)函數(shù)有助于抵消市場長期下行風(fēng)險(梁天新等,2019[3])。具體表示如公式(17)所示,其中,CalmarT為T時間周期內(nèi)的卡瑪比率,E[Rt]為T時間周期內(nèi)收益率的平均值,E(MDD)是對應(yīng)的期望最大回撤。參考Almahdi和Yang(2017)[32]的研究,微分卡瑪比率可以表示為公式(18)至公式(21)。其中,γ為投資收益在一段時期的平均值,σ為投資收益在一段時期的標(biāo)準(zhǔn)差。
(17)
E(MDD)=
(18)
(19)
(20)
(21)
3.投資組合約束條件。
4.動態(tài)止損機制。
由于金融市場的復(fù)雜多變,金融交易中沒有持久的確定性,所有的分析和預(yù)測只是一種可能性,根據(jù)這種可能性而進行的交易和投資行為自然會產(chǎn)生許多不確定性,因此有必要采取一些措施來控制相應(yīng)的風(fēng)險。已有研究表明,建立合理的動態(tài)止損機制在改善交易決策性能方面是有效的(Lo和Remorov,2017[34])。參考Almahdi和Yang的研究(2017)[32],我們在每次交易決策的最后階段加入動態(tài)止損機制,表示如下:
(22)
其中,rt-1為到時間點t-1的累計收益,而σt-1為到時間點t-1的累計收益的移動波動率,n為觸發(fā)動態(tài)止損機制的波動日的天數(shù)。值得注意的是,該動態(tài)止損機制只應(yīng)用于投資組合交易的測試階段,而并不用于訓(xùn)練強化學(xué)習(xí)參數(shù)和模型。
5.投資組合動態(tài)優(yōu)化過程。
在初始狀態(tài),投資者可以根據(jù)自己的偏好來選擇想要實現(xiàn)的目標(biāo)函數(shù)(夏普比率或者卡瑪比率)。例如,如果投資者注重投資的穩(wěn)健性,非常厭惡市場波動率,認為任何形式的波動都會給自己帶來不利的影響,則可以選擇夏普比率作為投資組合優(yōu)化的目標(biāo)函數(shù);如果投資者更在意市場下行風(fēng)險而不太在乎市場上行帶來的波動,并對投資過程中的損失非常敏感,就可以選擇卡瑪比率作為目標(biāo)函數(shù)。然后,我們需要考慮投資組合的基數(shù)約束,即對投資組合內(nèi)部的資產(chǎn)數(shù)量約束。交易成本的改變也會影響我們模型的交易結(jié)果,在本研究中,將每次交易決策中的交易成本設(shè)定為固定不變的數(shù)值,為了更好地檢驗投資組合模型的穩(wěn)健性,我們設(shè)定了多組交易成本。
接著是對模型進行系統(tǒng)訓(xùn)練,基于RRL方法,我們的智能體將持續(xù)監(jiān)控和感知市場環(huán)境狀態(tài),根據(jù)目標(biāo)函數(shù)和市場情況來從市場資產(chǎn)池中為投資組合動態(tài)挑選符合目標(biāo)函數(shù)的資產(chǎn),并進行投資組合資產(chǎn)權(quán)重的優(yōu)化,然后再為投資組合中的每個資產(chǎn)生成相應(yīng)的交易信號,從而產(chǎn)生多/空投資組合。在每一個交易周期T,投資組合內(nèi)部資產(chǎn)與外部市場資產(chǎn)池都需要進行實時動態(tài)交易。也就是說,投資組合內(nèi)部的資產(chǎn)構(gòu)成及資產(chǎn)配置并不是固定不變的,而是隨著交易周期T的推進以及市場與資產(chǎn)信息的實時變化而發(fā)生改變,以保證投資者所持有的投資組合能夠?qū)崿F(xiàn)目標(biāo)函數(shù)最大化。值得說明的是,數(shù)據(jù)選擇的范圍可能會影響最后交易結(jié)果,故我們采用了一種多周期重疊式的投資組合交易訓(xùn)練方式來提升模型訓(xùn)練效率,訓(xùn)練窗口將在每次決策后向后逐步移動,以便每次訓(xùn)練都能夠包含最新的市場數(shù)據(jù)。在模型參數(shù)選擇方面,我們在輸出層上采用了dropout正則化技術(shù)。它的工作原理為,在訓(xùn)練過程中,隨機刪除網(wǎng)絡(luò)中的一些隱藏神經(jīng)元,同時丟棄掉從該節(jié)點進出的連接,并保持輸入輸出神經(jīng)元不變,然后將輸入通過修改后的網(wǎng)絡(luò)進行前向傳播,將誤差通過修改后的網(wǎng)絡(luò)進行反向傳播,以此來有效減少過擬合(Srivastava等,2014[35];Fischer和Krauss,2018[36])。我們先采用部分樣本進行了預(yù)實驗,結(jié)果表明模型的性能會隨著丟棄率(dropout ratio)的增加而下降,因此,我們將丟棄率設(shè)置為相對較低的0.1。然后我們采用應(yīng)用較為廣泛且有效的隨機搜索法(Bergstra和Bengio,2012[37];Greff等,2017[38]),根據(jù)上述設(shè)置動態(tài)地找到一個好的超參數(shù)組合。具體來講,隨機搜索對以下參數(shù)進行了采樣:(1)學(xué)習(xí)率,范圍從0到1;(2)epoch的個數(shù),范圍從100到5 000。其中,epoch指的是模型訓(xùn)練的迭代次數(shù),1個epoch等于使用訓(xùn)練集中的全部樣本訓(xùn)練一次;(3)每個資產(chǎn)的最大迭代次數(shù),范圍從10到2 000;(4)閾值c的大小,范圍從0到2。最后我們選取了表現(xiàn)最好的一組數(shù)值作為參數(shù)集合,學(xué)習(xí)率為0.1,epoch為每個時間周期2 000次,每個資產(chǎn)的最大迭代數(shù)為100個,閾值為1。
此外,我們在每次交易之后加入了一個動態(tài)止損機制,如公式(22)所示。當(dāng)投資組合的收益與風(fēng)險比值達到了止損閾值,便會觸發(fā)平倉止損操作,然后我們的模型將被重新迭代訓(xùn)練,模型參數(shù)將被更新,智能體將持續(xù)關(guān)注環(huán)境狀態(tài),等待下一次投資組合的建倉。如若投資組合的收益與風(fēng)險比未能觸發(fā)止損機制,交易將正常繼續(xù)進行,每次交易將輸出相應(yīng)的獎賞值作為獎勵,然后更新當(dāng)前的交易信息存儲到交易經(jīng)驗池中。通過這樣的方式循環(huán)往復(fù),直到投資期結(jié)束。為了更好地訓(xùn)練模型,動態(tài)止損機制只在測試階段使用,并不應(yīng)用于訓(xùn)練階段。本研究所提出的帶有動態(tài)止損機制的投資組合優(yōu)化方法的具體過程如圖2所示。
圖2 基于動態(tài)交易和風(fēng)險約束的投資組合優(yōu)化過程(含動態(tài)止損機制)
6.基準(zhǔn)策略。
基于本研究所提出的帶有動態(tài)止損機制的Calmar/Sharpe+A+RRL模型,我們又選用了以下兩種基準(zhǔn)策略,用于同Calmar/Sharpe+A+RRL(Stop loss)模型在投資組合優(yōu)化方面進行比較,以進一步驗證模型的有效性。
(1)Calmar/Sharpe+A+DDPG(Stop loss)
不同的目標(biāo)函數(shù)使得智能體學(xué)習(xí)的交易決策有所差異,從而導(dǎo)致交易結(jié)果也會有所不同。本研究選出了兩個常用的衡量投資組合績效的指標(biāo)作為目標(biāo)函數(shù),分別為夏普比率和卡瑪比率。保持模型的其他設(shè)置相同,通過不同目標(biāo)函數(shù)的設(shè)定,來觀察在不同的市場狀態(tài)下哪種目標(biāo)函數(shù)所搭配的優(yōu)化模型可以帶來更多投資收益。同時我們也可以保持相同的目標(biāo)函數(shù),變化不同的強化學(xué)習(xí)算法來優(yōu)化投資組合,從而觀察哪種方法的組合更有利于實現(xiàn)投資組合的動態(tài)優(yōu)化。其中,深度確定性策略梯度(Deep Determination Policy Gradient,DDPG)是強化學(xué)習(xí)中的另一種較常用的方法,它結(jié)合了深度學(xué)習(xí)的感知能力與強化學(xué)習(xí)的決策能力,能夠有效解決復(fù)雜系統(tǒng)的感知決策問題。
(2)Calmar/Sharpe+A+RRL/DDPG
本研究所提出的模型在每次交易的最后階段都加入了動態(tài)止損機制,但是無法保證這種止損機制在市場環(huán)境變化的情況下依然有效。因此有必要將無動態(tài)止損機制的交易策略作為基準(zhǔn)策略,進行對比,以此來驗證該止損機制在投資組合優(yōu)化過程中能夠避免相應(yīng)投資損失的有效性。
我們從中國股票市場收集了21只股票數(shù)據(jù)作為研究樣本。由于我們需要用到滬深300指數(shù)(HS300)數(shù)據(jù),而HS300是由滬深證券交易所于2005年4月8日聯(lián)合發(fā)布,為了保證我們整個研究數(shù)據(jù)的一致性,故中國市場所有樣本數(shù)據(jù)的時間范圍為2005年4月8日至2019年3月13日。其中,訓(xùn)練集數(shù)據(jù)的時間范圍為2005年4月8日至2015年9月15日,包含2 550個交易日,測試集數(shù)據(jù)的時間范圍為2015年9月16日至2019年3月13日,包含850個交易日。此外,許多研究表明,對于個人投資者而言,持有成百上千個資產(chǎn)作為投資組合是不現(xiàn)實的(Almahdi和Yang,2017[32];Kocuk和Cornuéjols,2020[39];Tanaka等,2000[40])。例如,Tanaka等(2000)[40]選取了9種證券作為樣本,形成了最優(yōu)投資組合。Almahdi和Yang(2017)[32]構(gòu)建了一個包含5種資產(chǎn)的投資組合。本研究分別從中國市場隨機選取了21只股票作為研究樣本,這足以支撐個人投資者投資組合優(yōu)化的研究。
所有的樣本數(shù)據(jù)都涉及股票調(diào)整后的開盤價、收盤價、最高價、最低價和交易量,均為日度數(shù)據(jù)。中國股票市場數(shù)據(jù)來源于滬深300指數(shù)(11只股票)和中證500指數(shù)(10只股票)。對于缺失數(shù)據(jù),若為交易日停牌現(xiàn)象,則取停牌之前最后一個交易日的數(shù)據(jù),若為非交易日,則直接刪除空白數(shù)據(jù)。這些股票的收盤價的描述性統(tǒng)計如表1所示。我們可以看出股票000538.sz的日平均價格最高,為45.04元,000012.sz的標(biāo)準(zhǔn)差最低,為2.69元,緊隨其后的是000008.sz,為2.88元。
表1樣本數(shù)據(jù)的描述性統(tǒng)計 (單位:元)
在實際金融交易場景中,交易次數(shù)不應(yīng)過于頻繁,也不該間隔太久,許多研究表明以兩周(約10個交易日)為交易周期對個人投資者而言是比較合理的(Mousavi等,2014[41];Almahdi和Yang,2019[33])。結(jié)合已有文獻和實際情況,本研究以兩周(10個交易日)為一個交易周期T,并按照交易周期T對樣本數(shù)據(jù)進行劃分。最終訓(xùn)練集數(shù)據(jù)包含了255個交易周期,測試集數(shù)據(jù)包含了85個交易周期。由于數(shù)據(jù)選擇的范圍可能會影響最后實驗結(jié)果,故我們采用了一種多周期重疊式的投資組合交易訓(xùn)練方式,以便每次訓(xùn)練都能夠包含最新的市場數(shù)據(jù),提升模型訓(xùn)練的效率。我們設(shè)置訓(xùn)練窗口大小為一周(5個交易日),訓(xùn)練窗口將在每次交易決策后向后逐步移動。本研究的實驗結(jié)果均是基于以交易周期T劃分的數(shù)據(jù)集來模擬市場交易所獲得。
參考相關(guān)實證研究(Almahdi和Yang,2017[32];Paiva等,2019[1]),我們分別對交易成本為0bps、0.05 bps及0.10 bps的情況進行了仿真,并展示了最終的投資組合優(yōu)化結(jié)果,這也符合我國股票市場的交易費用管理規(guī)范。本研究中的交易成本只考慮了傭金。表2至表5展示了Sharpe+A+RRL(S-A-R)、Sharpe+A+RRL(Stop-loss)(S-A-R-SL)、Calmar+A+RRL(C-A-R)、Calmar+A+RRL(Stop-loss)(C-A-R-SL)、Sharpe+A+DDPG(S-A-D)、Sharpe+A+DDPG(Stop-loss)(S-A-D-SL)、Calmar+A+DDPG(C-A-D)和Calmar+A+DDPG(Stop-loss)(C-A-D-SL)模型對投資組合進行優(yōu)化之后的金融績效結(jié)果對比,為了使表更簡潔,我們分別采用了各個模型的簡稱。其中,表2表示無交易成本,表3表示交易成本為0.05bps的情況,表4表示交易成本為0.1bps的情況。面板A、B和C分別描述了以交易周期T為單位,優(yōu)化后的投資組合的收益特征、風(fēng)險特征和風(fēng)險-收益特征。
表2無交易成本的投資組合績效特征
表3含交易成本的投資組合績效特征(0.05bps)
表4含交易成本的投資組合績效特征(0.1bps)
收益特征:在表2的面板A中,我們可以發(fā)現(xiàn),相比于其他的基準(zhǔn)模型,以卡瑪為目標(biāo)函數(shù)且?guī)в袆討B(tài)止損機制的Calmar+A+RRL(Stop-loss)模型優(yōu)化后的投資組合實現(xiàn)了最高平均收益率0.046 57和累計收益率18.501 03。當(dāng)考慮了交易成本0.05 bps之后,如表3的面板A所示,Calmar+A+RRL(Stop-loss)模型依然保持著最優(yōu)的平均收益率(0.052 07)和累計收益率(15.806 38)。Calmar+A+RRL模型的平均收益率和累計收益率均位居第二,分別為0.049 02和11.055 20。當(dāng)考慮了交易成本0.1bps之后,如表4的面板A所示,在累計收益率方面,Calmar+A+RRL(Stop-loss)模型實現(xiàn)了最高值7.416 39,其次是Calmar+A+DDPG(Stop-loss)。在交易周期內(nèi)的平均收益率方面,Sharpe+A+RRL模型實現(xiàn)了最高值(0.034 75),然后是Calmar+A+RRL(Stop-loss)模型(0.033 88)。
風(fēng)險特征:在表2至表4的面板B中,可以觀察到與風(fēng)險特征對應(yīng)的風(fēng)險價值(Value at Risk,VAR)、條件風(fēng)險價值(Conditional Value at Risk,CVaR)及最大回撤率(Maximum drawdown)。當(dāng)交易成本為0bps時,Calmar+A+DDPG(Stop-loss)模型交易后的投資組合在5%置信水平上VAR和CVAR都實現(xiàn)了最低值,分別為0.015 20和0.058 00。Calmar+A+RRL和Sharpe+A+RRL模型交易后的投資組合分別實現(xiàn)了最低的1% VAR(0.016 60)和1%CVAR(0.017 40)。當(dāng)交易成本為0.05bps時,Calmar+A+DDPG(Stop-loss)模型交易后的投資組合實現(xiàn)了最低的1% VAR(0.038 00)和5% CVAR(0.061 25),Sharpe+A+DDPG(Stop-loss)模型在5%置信水平上CVAR實現(xiàn)了最低值0.011 00,此外,Calmar+A+RRL(Stop-loss)模型也實現(xiàn)了比較低的1% CVAR(0.011 50)和5%VAR(0.035 00)。當(dāng)交易成本增加至0.1bps時,Sharpe+A+RRL(Stop-loss)模型實現(xiàn)了最低的1%VAR(0.105 00),Calmar+A+RRL(Stop-loss)模型實現(xiàn)了最低的5%VAR(0.014 00),Calmar+A+DDPG(Stop-loss)模型實現(xiàn)了最低的1%CVAR(0.067 00)和5%CVAR(0.033 50)。最大回撤率指的是某一段時期內(nèi)投資組合的收益率從最高點開始回落到最低點的幅度,描述的是投資者可能面臨的最大損失。在最大回撤率方面,我們發(fā)現(xiàn),Calmar+A+DDPG模型優(yōu)化后的投資組合在不同的交易成本情況下,均實現(xiàn)了最低的最大回撤率。通過以上分析,我們并沒有發(fā)現(xiàn)在投資組合風(fēng)險維度表現(xiàn)最好且穩(wěn)定的模型。
風(fēng)險-收益特征:在表2至表4的面板C中,我們討論了基于各個模型交易之后的投資組合相應(yīng)的風(fēng)險-收益情況。具體來講,在標(biāo)準(zhǔn)差方面,當(dāng)無交易成本時,Sharpe+A+RRL模型實現(xiàn)了最低值0.071 35,Calmar+A+DDPG(Stop-loss)模型緊隨其后,標(biāo)準(zhǔn)差為0.093 17,然后是Calmar+A+RRL(Stop-loss)模型(0.102 21)。當(dāng)交易成本增加至0.05bps時,Sharpe+A+RRL(Stop-loss)表現(xiàn)最好,標(biāo)準(zhǔn)差僅為0.073 93,Calmar+A+DDPG(Stop-loss)模型緊隨其后,標(biāo)準(zhǔn)差為0.096 70。當(dāng)交易成本為0.1bps時,Sharpe+A+RRL(Stop-loss)模型優(yōu)化的投資組合實現(xiàn)了最低的標(biāo)準(zhǔn)差值0.074 04,其次是Calmar+A+RRL(Stop-loss)模型(0.091 36)。在夏普比率方面,無論是否考慮交易成本,我們可以發(fā)現(xiàn),Calmar+A+RRL(Stop-loss)模型優(yōu)化的投資組合均實現(xiàn)了最優(yōu)的夏普比率,分別為0.455 63(無交易成本)、0.423 51(0.05bps)、0.371 94(0.1bps)。在索提諾比率方面,我們依然可以發(fā)現(xiàn),在不同的交易成本情況下,Calmar+A+RRL(Stop-loss)模型優(yōu)化的投資組合依然實現(xiàn)了最優(yōu)值,分別為0.999 95(無交易成本)、0.905 82(0.05bps)和0.852 90(0.1bps)。而Calmar+A+DDPG(Stop-loss)模型在無交易成本時位居第二(0.832 28),Sharpe+A+RRL(Stop-loss)在0.05交易成本時位居第二(0.711 14)。
根據(jù)以上討論和分析,我們發(fā)現(xiàn),在投資組合的收益特征、風(fēng)險特征及年度收益-風(fēng)險特征方面,加入動態(tài)止損機制的交易模型Calmar+A+DDPG(Stop-loss)、Calmar+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)、Sharpe+A+RRL(Stop-loss)的綜合表現(xiàn)要優(yōu)于未加入該機制的Calmar+A+DDPG、Calmar+A+RRL、Sharpe+A+DDPG、Sharpe+A+RRL模型。此外,以卡瑪比率為目標(biāo)函數(shù)的模型Calmar+A+RRL(Stop-loss)、Calmar+A+DDPG(Stop-loss)模型優(yōu)化后的投資組合的綜合表現(xiàn)優(yōu)于以夏普比率為目標(biāo)函數(shù)的模型Sharpe+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)。其中,Calmar+A+RRL(Stop-loss)模型優(yōu)化后的投資組合的綜合表現(xiàn)優(yōu)于其他基準(zhǔn)模型。
為了更加直觀地比較各個模型對投資組合的優(yōu)化效果,我們接著對Calmar+A+DDPG(Stop-loss),Calmar+A+RRL(Stop-loss),Sharpe+A+DDPG(Stop-loss),Sharpe+A+RRL(Stop-loss)這四種綜合表現(xiàn)更優(yōu)的模型在樣本測試集期間(2015年9月16日至2019年3月13日)優(yōu)化后的投資組合的累計收益率進行了可視化展示。首先,我們對不同的目標(biāo)函數(shù)的優(yōu)化模型對應(yīng)的投資組合的累計收益率(0bps)進行了縱向?qū)Ρ取膱D3可以看出,加入了動態(tài)止損機制的投資組合優(yōu)化方法確實比不加入該機制的方法實現(xiàn)了更高的累計收益率,而且無論是否加入動態(tài)止損機制,無論如何設(shè)置目標(biāo)函數(shù),各個模型優(yōu)化的投資組合所實現(xiàn)的累計收益率始終高于滬深300指數(shù)HS300的累計收益率,也就是中國股票市場的基本水平(黃東賓等,2017[42];曾志平等,2017[28])。圖4展現(xiàn)了無交易成本時每個模型對應(yīng)的累計收益率。顯然,在四個模型之中,Calmar+A+RRL(Stop-loss)模型具有更高的累計收益率,最終的累計收益率約達到了18.501 03。位居第二的是Sharpe+A+DDPG(Stop-loss)模型,累計收益率為15.587 01。然后是Calmar+A+DDPG(Stop-loss)模型(15.587 01)和Sharpe+A+RRL(Stop-loss)模型(10.507 10)。此外,我們還需要進一步觀察不同模型在不同交易成本水平下的投資組合優(yōu)化結(jié)果。
圖3 無交易成本時不同目標(biāo)函數(shù)對應(yīng)的累計收益對比
圖4 無交易成本時的累計收益
我們接著分別描繪了交易成本為0.05bps和0.10 bps的各個交易策略所對應(yīng)的投資組合的交易后的累計收益率,結(jié)果如圖5和圖6所示。顯然,與無交易成本相比,各個模型交易后的投資組合的累計收益率都有下降的趨勢。當(dāng)交易成本為0.05 bps時,Calmar+A+RRL(Stop-loss)模型依然實現(xiàn)了最大的投資組合最終累計收益率(15.806 38);Calmar+A+DDPG(Stop-loss)模型對應(yīng)的投資組合累計收益率位居第二(6.598 70),然后是Sharpe+A+RRL(Stop-loss)模型(6.203 44)。當(dāng)交易成本為0.1 bps時,Calmar+A+RRL(Stop-loss)模型交易后的投資組合的最終累計收益率(7.416 39)依然大于其他模型,Calmar+A+DDPG(Stop-loss)模型對應(yīng)的投資組合累計收益率位居第二(6.069 55)。接著是Sharpe+A+RRL(Stop-loss)模型(5.661 37)。
圖5 含交易成本時的累計收益(0.05bps)
圖6 含交易成本時的累計收益(0.1bps)
通過將不同的模型優(yōu)化后的投資組合的累計收益率進行可視化對比,容易發(fā)現(xiàn),無論是否考慮交易成本,以卡瑪比率為目標(biāo)函數(shù)且加入了動態(tài)止損機制的投資組合優(yōu)化模型Calmar+A+RRL(Stop-loss)均實現(xiàn)了較優(yōu)的結(jié)果,實現(xiàn)了投資組合交易的收益最大化。
需要說明的是,本研究參考了Almahdi和Yang(2017)[32]的研究,該研究所采用的投資組合優(yōu)化模型可以簡寫Calmar+RRL(Stop-loss),我們在該模型的基礎(chǔ)之上進行了改進和拓展。與已有研究[32]相比,本研究中的投資組合優(yōu)化模型Calmar+A+RRL(Stop-loss)將體制轉(zhuǎn)換模型與循環(huán)強化學(xué)習(xí)方法相結(jié)合,可以在不同的市場環(huán)境狀態(tài)下選擇不同的神經(jīng)網(wǎng)絡(luò)權(quán)重來應(yīng)對市場風(fēng)格的變化,此外本研究還設(shè)計了投資組合內(nèi)部資產(chǎn)與外部資產(chǎn)池進行動態(tài)交易場景來實時更替投資組合的資產(chǎn)構(gòu)成和投資配置比例。由此我們將本研究中綜合表現(xiàn)最好的模型Calmar+A+RRL(Stop-loss)與Almahdi和Yang(2017)[32]提出的投資組合優(yōu)化模型Calmar+RRL(Stop-loss)進行了累計收益率的可視化比較。如圖7所示,Calmar+A+RRL(Stop-loss)模型優(yōu)化后的投資組合所實現(xiàn)的最終累計收益率(18.501 03)高于Calmar+RRL(Stop-loss)模型對應(yīng)的投資組合最終累計收益率(10.442 89)。
由此我們想要驗證不同模型在對投資組合優(yōu)化過程中產(chǎn)生的交易信號頻率如何,因為交易信號的產(chǎn)生頻率關(guān)系著投資組合優(yōu)化之后的金融績效。投資組合包含了9只資產(chǎn),在動態(tài)交易情境下,該投資組合中始終有9個位置留給在相應(yīng)周期T內(nèi)符合目標(biāo)函數(shù)最大化的資產(chǎn)。于是,我們隨機選取了三個位置,它們的交易信號如圖8、圖9和圖10所示。從橫向?qū)Ρ葋砜?,在相同的目?biāo)函數(shù)條件下,加入動態(tài)止損機制的模型比沒有動態(tài)止損機制的模型的交易信號產(chǎn)生的頻率稍微高一點。而從縱向?qū)Ρ葋砜?,以卡瑪比率為目?biāo)函數(shù)的投資組合優(yōu)化模型Calmar+A+RRL(Stop-loss)、Calmar+A+DDPG(Stop-loss)、Calmar+A+RRL和Calmar+A+DDPG產(chǎn)生的交易信號比以夏普比率為目標(biāo)函數(shù)的投資組合優(yōu)化模型Sharpe+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)、Sharpe+A+RRL和Sharpe+A+DDPG產(chǎn)生的相應(yīng)交易信號頻率更低、一致性更高。這也能夠說明我們在同一位置上持有資產(chǎn)的時間更長,從而在一定程度上降低了交易成本對收益的影響。這也進一步解釋并驗證了Calmar+A+RRL(Stop-loss)模型在動態(tài)交易情境下比其他模型表現(xiàn)更好。
圖8 交易信號(位置一)
圖9 交易信號(位置二)
圖10 交易信號(位置三)
基于前面的投資組合優(yōu)化結(jié)果對比和可視化分析,可以看出,在不同的交易成本情況下,Calmar+A+RRL(Stop-loss)模型的優(yōu)化效果都較為全面地、顯著地優(yōu)于其他基準(zhǔn)模型,即Calmar+A+RRL(Stop-loss)模型的魯棒性得到了驗證。為了對實驗結(jié)果進行更加嚴謹?shù)姆治龊蜋z驗,我們進一步對Calmar+A+RRL(Stop-loss)、Calmar+A+DDPG(Stop-loss)、Calmar+A+DDPG、Sharpe+A+RRL(Stop-loss)和Sharpe+A+DDPG(Stop-loss)模型在周期收益率數(shù)據(jù)集上的差異性進行了顯著性檢驗。首先,我們對所有模型構(gòu)建的投資組合的每個交易周期的收益率數(shù)據(jù)集進行了正態(tài)性檢驗。如表5所示,P值均為0.00,故拒絕這些數(shù)據(jù)集服從正態(tài)分布的原假設(shè)。因此,我們選擇了非參數(shù)檢驗。表6為Kruskal-Wallis檢驗的結(jié)果,易得不同模型平均周期收益率分布的無差異的非參數(shù)假設(shè)被拒絕。由于Kruskal-Wallis檢驗不顯示兩兩模型之間的差異關(guān)系,于是我們采用了Mann-Whitney檢驗,表7、表8和表9分別展示了無交易成本、交易成本為0.05bps和0.1bps時各個模型對應(yīng)的交易周期收益率差異的顯著性檢驗結(jié)果。從這些檢驗結(jié)果中可以看出,在95%甚至99%的置信水平上,Calmar+A+RRL(Stop-loss)模型優(yōu)化后的投資組合與Calmar+A+DDPG(Stop-loss)、Calmar+A+DDPG、Sharpe+A+RRL(Stop-loss)和Sharpe+A+DDPG(Stop-loss)模型優(yōu)化后的投資組合在收益率上差異性顯著。
表5投資組合周期收益率的正態(tài)性檢驗(P-value)
表6 投資組合周期收益率的Kruskal-Wallis檢驗(P-value)
表7無交易成本的投資組合周期收益率的Mann-Whitney檢驗(P-value)
表8含交易成本(0.05bps)的投資組合周期收益率的Mann-Whitney檢驗(P-value)
表9含交易成本(0.1bps)的投資組合周期收益率的Mann-Whitney檢驗(P-value)
本研究基于循環(huán)強化學(xué)習(xí)RRL提出了一種智能投資組合動態(tài)優(yōu)化方法Calmar+A+RRL(Stop-loss),該方法能夠依據(jù)不同風(fēng)險約束的目標(biāo)函數(shù)來應(yīng)對不同的市場風(fēng)格變化,并根據(jù)當(dāng)前市場的金融時間序列信息,通過投資組合內(nèi)部資產(chǎn)與外部資產(chǎn)池動態(tài)交易的形式,來實時調(diào)整投資組合資產(chǎn)構(gòu)成及資產(chǎn)配置。具體而言,在每一個交易周期T,該方法都會依據(jù)包含風(fēng)險約束的目標(biāo)函數(shù)和市場的實時變化來從外部市場資產(chǎn)池中為投資組合動態(tài)挑選符合目標(biāo)函數(shù)的資產(chǎn),然后基于RRL方法對投資組合的資產(chǎn)權(quán)重進行配置并為每個資產(chǎn)生成相應(yīng)的交易信號,從而基于這種動態(tài)交易的方式來優(yōu)化投資組合。此外,我們在動態(tài)交易之后加入了一個動態(tài)止損機制,當(dāng)止損機制被觸發(fā),交易將被停止,然后重新開始新一輪周期的投資組合優(yōu)化。本研究基于中國股票市場數(shù)據(jù)進行了實證分析,得出了以下幾個主要結(jié)論。
第一,我們發(fā)現(xiàn)在交易成本和市場狀況都發(fā)生變化的情況下,加入動態(tài)止損機制的投資組合優(yōu)化模型Calmar+A+DDPG(Stop-loss)、Calmar+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)和Sharpe+A+RRL(Stop-loss)在收益、風(fēng)險和風(fēng)險-收益三個維度的綜合表現(xiàn)要優(yōu)于未加入該機制的Calmar+A+DDPG、Calmar+A+RRL、Sharpe+A+DDPG和Sharpe+A+RRL模型。這說明在投資組合優(yōu)化過程中,由于市場環(huán)境的不斷變化,任何一種優(yōu)化方法或者模型都不能永久獲益,因此有必要加入與市場環(huán)境和資產(chǎn)信息變化相適應(yīng)的動態(tài)止損機制,而本研究提出的動態(tài)止損機制可以從一定程度上控制投資組合優(yōu)化過程中的風(fēng)險。
第二,研究發(fā)現(xiàn),以卡瑪比率為目標(biāo)函數(shù)的模型Calmar+A+RRL(Stop-loss)、Calmar+A+DDPG(Stop-loss)模型優(yōu)化后的投資組合的綜合表現(xiàn)優(yōu)于以夏普比率為目標(biāo)函數(shù)的模型Sharpe+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)。因此,在投資組合的優(yōu)化中考慮下行風(fēng)險約束比考慮總體風(fēng)險更有利于實現(xiàn)既定投資風(fēng)險下的收益最大化。
第三,無論是否考慮交易成本,綜合來看,以卡瑪比率為目標(biāo)函數(shù)且?guī)в袆討B(tài)止損機制模型Calmar+A+RRL(Stop-loss)所優(yōu)化的投資組合的各項金融指標(biāo)性能都顯著優(yōu)于其他基準(zhǔn)模型所對應(yīng)的投資組合。這說明該模型可以適應(yīng)不同的市場情況,有效過濾市場噪聲并識別重要的交易信號,進而幫助投資者獲取更高的收益。而且Calmar+A+RRL(Stop-loss)模型在投資組合動態(tài)優(yōu)化方面的有效性在新興的中國股票市場得到了充分的檢驗。
第四,通過對比本研究提出的模型Calmar+A+RRL(Stop-loss)和Almahdi和Yang的研究(2017)[32]所采用的模型Calmar+RRL(Stop-loss),在相同的數(shù)據(jù)集和模型參數(shù)設(shè)定條件下,研究發(fā)現(xiàn)Calmar+A+RRL(Stop-loss)模型實現(xiàn)了比Calmar+RRL(Stop-loss)更高的投資組合最終累計收益率。這說明了依據(jù)市場環(huán)境變化和動態(tài)交易方式來選擇投資組合的資產(chǎn)構(gòu)成并考慮風(fēng)險約束因素的必要性。