代一方
[摘 要]傳統(tǒng)的投資組合管理方法往往依賴于經(jīng)驗規(guī)則或數(shù)學模型,難以充分利用市場信息和動態(tài)調整投資策略。為了解決這一問題,文章提出一種基于強化學習PPO(Proximal Policy Optimization)算法的新方法。使用上市公司的歷史數(shù)據(jù)進行訓練和測試,與傳統(tǒng)投資策略和其他強化學習算法進行比較,實驗結果表明,基于強化學習PPO算法的投資組合管理方法在投資回報率和風險控制方面取得了顯著的改進。
[關鍵詞]強化學習;PPO算法;投資組合管理;上市公司
doi:10.3969/j.issn.1673-0194.2024.05.042
[中圖分類號]F830.9 [文獻標識碼]A [文章編號]1673-0194(2024)05-0140-04
1? ? ?文獻綜述
上市公司投資組合管理是金融領域的重要問題之一,它涉及如何有效地分配投資資金以取得最大化回報并控制風險。隨著金融市場越來越復雜,傳統(tǒng)的投資組合管理方法難以適應快速變化的市場環(huán)境。因此,尋求新的投資策略和方法變得至關重要。強化學習作為一種基于智能體與環(huán)境交互學習的方法,在解決復雜決策問題方面展現(xiàn)出巨大潛力。近年來,強化學習在金融領域的應用引起了廣泛關注,并取得了令人矚目的成果。
齊岳等(2018)利用深度強化學習中確定性策略梯度DDPG算法構建投資組合管理模型,通過控制每個股票的投資比例,降低整體的風險,此外,還采用Dropout的方法,有效地避免出現(xiàn)過擬合的情況[1]。韓道岐、張鈞垚等(2020)提出的ISTG(Intelligent Stock Trader and Gym),將歷史行情、技術、宏觀經(jīng)濟等眾多因素結合起來,通過對比各種參考標準,以及對比優(yōu)良的控制策略,構建出一個具有可拓展性的深度強化學習股市操盤手模型[2]。傅豐、王康(2020)研究發(fā)現(xiàn),采用強化學習SAC算法進行金融投資組合管理,年收益率可達到17.53%[3]。王舞宇、章寧等(2021)開發(fā)出一種新型的智能投資組合優(yōu)化算法,它可以根據(jù)不斷發(fā)展的市場環(huán)境,結合各種風險因素,靈活地改善投資組合的結果,并且可以根據(jù)不同的情況,進行相應的調整,從而更好地滿足客戶的需求[4]。陳浩、時正華(2022)針對投資組合管理問題,設計出一種基于深度強化學習TD3(Twin Delayed Deep Deterministic policy gradient algorithm)雙延遲確定性策略梯度算法的投資組合框架,投資者通過觀察股票的因子信息做出決策,以達到終期收益最大[5]。
Proximal Policy Optimization(PPO)算法作為一種強化學習算法,具有高穩(wěn)定性和高效性的特點,為投資組合管理提供了一種有效的解決方案。本文旨在探索基于強化學習PPO算法的上市公司投資組合管理方法,并對其性能進行評估和分析。與傳統(tǒng)方法相比,該方法能夠更好地利用市場信息、動態(tài)調整投資策略,并根據(jù)市場的變化及時進行調整。通過將歷史指標信息、技術指標等作為狀態(tài)變量,以投資決策作為行動空間,利用強化學習的優(yōu)勢,提高投資組合的回報率和風險控制能力。
本研究的貢獻主要包括以下幾個方面:首先,將強化學習方法引入上市公司投資組合管理領域,為投資決策提供了一種新的理論框架。其次,采用PPO算法進行策略優(yōu)化,旨在提高投資組合管理的穩(wěn)定性和效率。最后,通過實證研究對所提出的方法進行驗證和評估,與傳統(tǒng)方法及其他強化學習算法進行比較分析,展示其優(yōu)越性和應用潛力。
2? ? ?投資組合算法設計
強化學習在投資組合管理中的應用框架是將強化學習方法應用于投資決策的過程。在該框架中,將投資組合管理問題建模為馬爾可夫決策過程(MDP),其中投資決策是智能體的行動,市場數(shù)據(jù)和技術指標是狀態(tài)變量,回報函數(shù)衡量投資決策的效果?;谶@個框架,可以利用強化學習的算法和技術來優(yōu)化投資決策,實現(xiàn)投資組合的最優(yōu)化。強化學習投資組合應用框架如圖1所示。
2.1? ?動作空間設置
在基于強化學習算法的上市公司投資組合管理中,設置動作空間(Action Space)是關鍵之一。本文采用組合動作空間(Composite Action Space)方法,組合動作空間是離散和連續(xù)動作空間的結合,定義一組離散的操作,設置-1、0、1分別代表賣出、持有和買進一只股票,然后為每個離散動作分配一個連續(xù)的數(shù)值范圍,表示該動作的具體大小。例如,動作可以表示為,表示第t期對第i只股票的操作,為正表示買入該只股票,為負表示賣出該股票。這種設置可以更靈活地表示投資組合的調整。
2.2? ?環(huán)境與狀態(tài)空間設置
為了應用強化學習,需要定義一個強化學習環(huán)境,該環(huán)境要模擬投資組合管理的情境。同時,為避免狀態(tài)空間過于復雜或包含冗余信息,需要考慮狀態(tài)空間的維度和信息的重要性。在本研究中,收集了上市公司的歷史市場數(shù)據(jù)和技術指標數(shù)據(jù),其中,市場數(shù)據(jù)包括開盤價、收盤價、最高價、最低價、換手率、漲跌幅、成交量、成交金額;技術指標包括平滑異同移動平均線(MACD)、布林線指標(BOLL)上軌線、布林線指標(BOLL)下軌線、相對強度指數(shù)(RSI)、30天移動平均價格,然后對數(shù)據(jù)進行預處理,將處理后的數(shù)據(jù)作為輸入數(shù)據(jù)。
2.3? ?獎勵函數(shù)設置
獎勵函數(shù)在投資組合管理中起到定義目標、指導行為、控制風險和優(yōu)化學習的關鍵作用。通過適當?shù)莫剟詈瘮?shù)設計,可以提高投資組合管理的效果,并使智能代理能夠適應不同市場環(huán)境和投資目標。本文根據(jù)投資組合的收益來設計獎勵函數(shù)。獎勵函數(shù)定義如下:
(1)
其中Xt為資產(chǎn)組合,Pt為股票價格,Ct為現(xiàn)金總額。
2.4? ?強化學習策略網(wǎng)絡建模
在強化學習中,策略網(wǎng)絡是智能體的核心組件,用于學習和生成投資決策策略。本文設計一個基于深度神經(jīng)網(wǎng)絡的策略網(wǎng)絡,該網(wǎng)絡將接收狀態(tài)作為輸入,并輸出相應的投資決策。策略網(wǎng)絡的目標是通過學習與環(huán)境的交互,優(yōu)化策略參數(shù),以最大化回報函數(shù)的累積獎勵。在本研究中,選擇PPO(Proximal Policy Optimization)算法作為優(yōu)化算法,通過優(yōu)化策略參數(shù)來最大化期望回報,并保持策略的穩(wěn)定性,在實現(xiàn)PPO算法時,使用深度神經(jīng)網(wǎng)絡作為策略網(wǎng)絡,并根據(jù)采樣數(shù)據(jù)進行策略梯度的估計和更新。經(jīng)過多次采樣和優(yōu)化,逐步提升策略網(wǎng)絡的性能。
PPO算法的核心思想是在每個訓練迭代中通過近端策略優(yōu)化來更新策略。相較于一些傳統(tǒng)的策略梯度方法,PPO算法采用了裁剪技巧來增強訓練的穩(wěn)定性和收斂性,為了避免策略更新過大,PPO使用了一個重要的技術叫做“Clip Surrogate Objective”。它通過在優(yōu)化過程中限制新策略和舊策略之間的距離,從而限制了策略更新的幅度。這個限制可以通過引入一個截斷函數(shù),將目標函數(shù)在一定范圍內被截斷,限制策略更新的幅度,從而提高算法的穩(wěn)定性。PPO算法的目標函數(shù)定義如下:
(2)
其中為模型更新后的新策略,為更新前的舊策略,為新舊策略的比值。
(3)
為新策略相較于舊策略的優(yōu)勢函數(shù),目標函數(shù)包含兩部分,一部分為未截斷的新舊策略的比值,另一部分為在區(qū)間進行截斷后的比值,目標函數(shù)為兩部分的最小值。
3? ? ?實 驗
3.1? ?數(shù)據(jù)樣本
在本實證研究中,歷史市場數(shù)據(jù)來源于Tushare 數(shù)據(jù)接口包,技術指標數(shù)據(jù)利用Stockstats量化指標庫進行計算,數(shù)據(jù)時間區(qū)間為2010年1月4日到2022年12月30日。本文在上證50中將有大量缺失數(shù)據(jù)的
股票剔除掉,最終挑選出7只股票,即“601318.SH”中國平安,“600519.SH”貴州茅臺,“601398.SH”工商銀行,“600332.SH”白云山,“600839.SH”四川長虹,“603888.SH”新華網(wǎng),“600085.SH”同仁堂。
3.2? ?模型基本設計
本文使用上述數(shù)據(jù)樣本進行模型訓練和優(yōu)化,激活函數(shù)選擇了RELU函數(shù),并選擇Adam作為優(yōu)化器。策略網(wǎng)絡和價值網(wǎng)絡的初始學習率均設置為0.000 01,批量大小設置為128。訓練步數(shù)
100 000,訓練時間為2010年1月4日到2020年12月30日,初始資金設置為100萬元。訓練過程包括觀察股票價格的變化,采取行動和獎勵的計算,讓代理相應地調整其策略,通過與環(huán)境互動,交易代理將隨著時間的推移獲得最大化回報的交易策略。
3.3? ?實驗結果
測試時間為2020年1月4日到2022年12月30日,不同策略評價指標對比如表1所示。
首先,關于年化收益率,我們觀察到所有方法的年化收益率都為負值,其中PPO算法的年化收益率為-0.013 5,DDPG算法為-0.123 5,等權重投資組合為-0.083 6,而上證50指數(shù)為-0.199 8。
其次,卡瑪比率是另一種衡量風險調整收益的指標,PPO算法和等權重的卡瑪比率較高,而DDPG算法和上證50指數(shù)的卡瑪比率較低。夏普比率是衡量收益和風險之間關系的指標,PPO算法和等權重的夏普比率較高,而DDPG算法和上證50指數(shù)的夏普比率較低。
最后,我們還觀察到所有方法的最大回撤都為負值,等權重投資組合和上證50指數(shù)的最大回撤較大,而PPO算法和DDPG算法的最大回撤較小。這意味著它們都經(jīng)歷了一定程度的損失峰值。
在測試時間范圍內,整個股票市場受到了COVID-19大流行和全球經(jīng)濟衰退的影響,這是一個極具挑戰(zhàn)性的時期,許多國家實施了封鎖措施,導致市場大幅波動和不確定性增加。這樣的市場環(huán)境對投資組合管理產(chǎn)生了顯著的影響,由于全球市場的大幅波動和下跌,許多投資組合和指數(shù)都遭受了損失,無論是傳統(tǒng)的等權重投資組合、上證50指數(shù),還是基于強化學習的PPO算法和DDPG算法,都出現(xiàn)了負收益率和負最大回撤。在這樣的市場環(huán)境下,傳統(tǒng)的經(jīng)驗規(guī)則或數(shù)學模型往往難以應對市場快速變化和不確定性增加帶來的挑戰(zhàn),基于強化學習的方法在一定程度上可以學習和適應市場的動態(tài)變化,但仍然受到市場不確定性的影響。綜合來看,PPO算法在年化收益率、累計收益率、夏普比率、卡瑪比率和最大回撤等方面相對其他方法表現(xiàn)較好,表明PPO算法在上市公司投資組合管理方面具有很大潛力。
4? ? ?結 論
本文提出了一種基于強化學習PPO算法的新方法,用于解決上市公司投資組合管理問題。通過使用上市公司的歷史數(shù)據(jù)進行訓練和測試,并與傳統(tǒng)投資策略和其他強化學習算法進行比較,本文得出以下結論:
基于強化學習PPO算法的投資組合管理方法在投資回報率方面有顯著的改進。在市場不確定性較大時,相對于傳統(tǒng)的經(jīng)驗規(guī)則或數(shù)學模型,該方法能夠更好地利用市場信息,動態(tài)調整投資策略,投資損失相對較低,這表明PPO算法能夠通過學習和優(yōu)化,適應不斷變化的市場環(huán)境,并生成更具競爭力的投資決策。
此外,與其他強化學習算法相比,基于PPO算法的投資組合管理方法在實驗中取得了較好的績效。PPO算法的穩(wěn)定性和魯棒性使其能夠適應高維狀態(tài)空間和連續(xù)動作空間,并且在訓練過程中能夠避免策略更新過大的問題。
綜上所述,基于強化學習PPO算法的上市公司投資組合管理方法在不確定環(huán)境下進行投資方面取得了顯著的改進,這種方法能夠更好地應對復雜的市場環(huán)境,并為投資決策提供了一種靈活且有效的策略。未來的研究可以進一步探索PPO算法的參數(shù)調優(yōu)、策略改進和實際應用的可行性,以進一步提升投資組合管理的績效和可靠性。
主要參考文獻
[1]齊岳,黃碩華.基于深度強化學習DDPG算法的投資組合管理[J].計算機與現(xiàn)代化,2018(5):93-99.
[2]韓道岐,張鈞垚,周玉航,等.基于深度強化學習的股市操盤手模型研究[J].計算機工程與應用,2020,56(21):145-153.
[3]傅豐,王康.基于深度強化學習SAC算法的投資組合管理[J].現(xiàn)代計算機,2020(9):45-48.
[4]王舞宇,章寧,范丹,等.基于動態(tài)交易和風險約束的智能投資組合優(yōu)化[J].中央財經(jīng)大學學報,2021(9):32-47.
[5]陳浩,時正華.基于強化學習TD3算法的投資組合管理[J].計算機與數(shù)字工程,2022,50(11):2354-2359,2398.