摘 要:離線-在線強(qiáng)化學(xué)習(xí)旨在使用少量在線微調(diào)來提高預(yù)訓(xùn)練模型的性能?,F(xiàn)有方法主要包括無約束微調(diào)與約束微調(diào)。前者往往由于分布偏移過大而導(dǎo)致嚴(yán)重的策略崩潰;后者由于保留離線約束導(dǎo)致性能提升緩慢,影響訓(xùn)練效率。為了改善上述問題,可視化對(duì)比分析兩類方法的微調(diào)過程,發(fā)現(xiàn)不準(zhǔn)確的Q值估計(jì)是影響性能的主要原因,并提出了一種動(dòng)態(tài)策略約束的雙Q值強(qiáng)化學(xué)習(xí)算法(DPC-DQRL)。首先,該算法設(shè)計(jì)了遵循記憶遺忘規(guī)律的動(dòng)態(tài)行為克隆約束,在微調(diào)過程中動(dòng)態(tài)調(diào)整約束強(qiáng)度;其次,構(gòu)建離線-在線雙Q值網(wǎng)絡(luò),引入離線動(dòng)作價(jià)值網(wǎng)絡(luò)參與Q值估計(jì),提高微調(diào)過程中Q值的準(zhǔn)確性。在Gym仿真平臺(tái)使用MuJoCo物理引擎進(jìn)行了Halfcheetah、Hopper、Walker2D三個(gè)經(jīng)典仿真任務(wù),使用DPC-DQRL算法微調(diào)后性能比原預(yù)訓(xùn)練模型分別提升47%、63%、20%,所有任務(wù)的平均歸一化得分比最優(yōu)基線算法提升10%。實(shí)驗(yàn)結(jié)果表明,DPC-DQRL在提升模型性能的同時(shí)保證了模型的穩(wěn)定,與其他算法相比具有一定的優(yōu)越性。
關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);離線-在線強(qiáng)化學(xué)習(xí);動(dòng)態(tài)策略約束;Q值估計(jì)
中圖分類號(hào):TP301.6"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-005-1003-08
doi: 10.19734/j.issn.1001-3695.2024.09.0338
DPC-DQRL: offline to online double Q value reinforcement learning with dynamic behavior cloning constraints
Yan Leiminga,b, Liu Jiana,b, Zhu Yongxina,b
(a.School of Computer Science amp; School of Cyber Science and Engineering, b. Engineering Research Center of Digital Forensics Ministry of Education, Nanjing University of Information Science amp; Technology, Nanjing 210044, China)
Abstract:Offline to online reinforcement learning focuses on improving the performance of pre-trained models through minimal online fine-tuning. Existing methods primarily adopt unconstrained or constrained fine-tuning. The unconstrained approach often results in severe policy collapse due to significant distribution shifts, while the constrained approach slows performance improvement because of strict offline constraints, reducing training efficiency. To address these limitations, this study identified inaccurate Q value estimation as a primary factor affecting performance through a comparative visualization of the fine-tuning processes of both approaches. To mitigate this issue, this paper proposed a dynamic policy-constrained double Q value reinforcement learning (DPC-DQRL) algorithm. The method incorporated a dynamic behavior cloning constraint based on a memory-forgetting mechanism, which dynamically adjusted constraint strength during fine-tuning. Furthermore, an offline-online double Q value network was constructed by integrating an offline action-value network into Q value estimation, enhancing Q value accuracy in the fine-tuning phase. Using the Gym simulation platform with the MuJoCo physics engine, DPC-DQRL was applied to fine-tune three classic tasks: Halfcheetah, Hopper, and Walker2D. The performance after fine-tuning improve by 47%, 63%, and 20%, respectively, compared to the original pre-trained model. The average normalized scores across all tasks show a 10% improvement over the optimal baseline algorithm. The experimental results demonstrate that DPC-DQRL enhances model performance while maintaining stability, showcasing significant advantages over other algorithms.
Key words:deep reinforcement learning; offline to online reinforcement learning; dynamic policy constraints; Q-value estimation
0 引言
深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)已經(jīng)在任務(wù)調(diào)度[1]、信號(hào)控制[2]、推薦系統(tǒng)[3]等多個(gè)領(lǐng)域取得了顯著成功,成為解決各種復(fù)雜、不確定性決策問題的強(qiáng)大工具[4, 5]。然而,在標(biāo)準(zhǔn)設(shè)置中,策略需要通過與環(huán)境從零開始交互訓(xùn)練,這往往需要耗費(fèi)大量時(shí)間以收集樣本數(shù)據(jù)。在許多實(shí)際應(yīng)用場景中,例如自動(dòng)駕駛、機(jī)械臂控制,交互訓(xùn)練的成本較高,并且交互訓(xùn)練還可能伴隨一定的風(fēng)險(xiǎn)[6]。
離線強(qiáng)化學(xué)習(xí)(offline reinforcement learning, Offline RL)作為近期的熱點(diǎn)方向,旨在使用離線數(shù)據(jù)來學(xué)習(xí)策略,減少與環(huán)境的交互[7]。相較于標(biāo)準(zhǔn)設(shè)置,它有望從次優(yōu)數(shù)據(jù)中學(xué)習(xí)并優(yōu)化策略,具有較高的樣本效率。然而,由于策略學(xué)習(xí)完全依賴于離線數(shù)據(jù),性能的優(yōu)劣程度受到數(shù)據(jù)質(zhì)量的影響[8]。
近年來,一些研究嘗試結(jié)合離線預(yù)訓(xùn)練與在線微調(diào),旨在連接離線和在線強(qiáng)化學(xué)習(xí),這一方法被稱為離線-在線強(qiáng)化學(xué)習(xí)(offline to online reinforcement learning,O2O RL)。盡管這種訓(xùn)練方式在計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域取得了顯著成果,但在強(qiáng)化學(xué)習(xí)領(lǐng)域的早期探索中,暴露出了一系列負(fù)面現(xiàn)象[9]。通過離線預(yù)訓(xùn)練初始化策略后直接進(jìn)行在線微調(diào),可能導(dǎo)致模型性能的不可恢復(fù)性下降,這主要是由“狀態(tài)-動(dòng)作”分布偏移及算法切換引起的學(xué)習(xí)動(dòng)態(tài)變化所導(dǎo)致的。目前,離線-在線強(qiáng)化學(xué)習(xí)的研究主要圍繞無約束微調(diào)和約束微調(diào)兩個(gè)方向展開。針對(duì)相關(guān)挑戰(zhàn),研究者提出了多種應(yīng)對(duì)方法,包括引入隱式策略約束[10]、篩選適用于在線微調(diào)的離線數(shù)據(jù)[11]、調(diào)整不同任務(wù)的策略約束權(quán)重[12]以及訓(xùn)練更多在線策略[13]等。然而,這些方法通常難以兼顧效率與穩(wěn)定性。約束微調(diào)方法性能提升緩慢,例如隱式策略約束方法通常需要100萬步在線微調(diào)才能實(shí)現(xiàn)顯著改進(jìn);無約束微調(diào)方法則未能有效解決性能下降的問題,微調(diào)過程中模型的性能波動(dòng)較大。此外,許多離線-在線強(qiáng)化學(xué)習(xí)方法中施加了復(fù)雜的技術(shù),如密度估計(jì)網(wǎng)絡(luò)[14]、集成網(wǎng)絡(luò)[15]和基于模型的方法[16],導(dǎo)致復(fù)雜度增加,且適應(yīng)性有限。
為了探究策略性能提升緩慢及在線微調(diào)不穩(wěn)定的原因,本文從Q值估計(jì)的視角出發(fā),通過實(shí)驗(yàn)分析發(fā)現(xiàn)Q值的不準(zhǔn)確估計(jì)是影響性能的關(guān)鍵因素。針對(duì)這一問題,提出了DPC-DQRL算法。首先,依據(jù)記憶遺忘規(guī)律,設(shè)計(jì)動(dòng)態(tài)行為克隆約束項(xiàng),調(diào)整約束強(qiáng)度,并通過重放學(xué)習(xí)的“記憶”方式緩解“遺忘”;其次,構(gòu)建離線-在線雙Q值網(wǎng)絡(luò),引入離線價(jià)值網(wǎng)絡(luò)協(xié)同決策,以降低時(shí)序差分誤差,提升訓(xùn)練過程中模型的穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,DPC-DQRL在效率與穩(wěn)定性方面優(yōu)于基線算法,同時(shí)未增加額外的計(jì)算開銷。
本文的貢獻(xiàn)如下:a)對(duì)現(xiàn)有方法的微調(diào)過程進(jìn)行了可視化分析,發(fā)現(xiàn)不準(zhǔn)確的Q值估計(jì)是導(dǎo)致模型性能下降和不穩(wěn)定的關(guān)鍵因素;b)針對(duì)Q值的不準(zhǔn)確估計(jì),提出了遵循記憶遺忘規(guī)律的動(dòng)態(tài)行為克隆約束與離線-在線雙Q值網(wǎng)絡(luò);c)在Gym仿真平臺(tái)使用MuJoCo物理引擎進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明,所提DPC-DQRL在Halfcheetah、Hopper、Walker2D任務(wù)中微調(diào)后性能提升顯著,所有任務(wù)的平均歸一化得分比最優(yōu)基線算法提升10%。
1 相關(guān)工作
1.1 在線強(qiáng)化學(xué)習(xí)
在線強(qiáng)化學(xué)習(xí)通過與環(huán)境交互收集數(shù)據(jù)并優(yōu)化策略。自Mnih等人[17]利用深度神經(jīng)網(wǎng)絡(luò)逼近Q值函數(shù),成功應(yīng)用于Atari游戲后,深度強(qiáng)化學(xué)習(xí)算法不斷涌現(xiàn)。目前除雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)[18]、近端策略優(yōu)化(proximal policy optimization,PPO)[19]、soft actor-critic[9]等經(jīng)典算法,也有許多結(jié)合知識(shí)蒸餾、集成等設(shè)置的高效算法,如Chen等人[20]在提高更新數(shù)據(jù)比的基礎(chǔ)上,集成多個(gè)Q函數(shù)集合,實(shí)現(xiàn)了比基于模型的強(qiáng)化學(xué)習(xí)算法更好的性能。Aitchison等人[21]設(shè)計(jì)獨(dú)立的策略與Q網(wǎng)絡(luò),通過多步累計(jì)回報(bào)限制負(fù)干擾,同時(shí)約束蒸餾過程保持建設(shè)性干擾,實(shí)現(xiàn)了比PPO更好的性能。李林等人[22]提出改進(jìn)雙重深度 Q 網(wǎng)絡(luò)的主動(dòng)學(xué)習(xí)語義分割模型,顯著減少樣本標(biāo)注成本并有效地緩解了類別不平衡問題。
現(xiàn)有的在線強(qiáng)化學(xué)習(xí)算法通過在線交互訓(xùn)練策略,展現(xiàn)出較好的性能與適應(yīng)性。然而,巨大的在線交互需求使其難以應(yīng)用于復(fù)雜的實(shí)際場景。
1.2 離線強(qiáng)化學(xué)習(xí)
離線強(qiáng)化學(xué)習(xí)專注于利用預(yù)先收集的數(shù)據(jù)進(jìn)行策略優(yōu)化。由于離線數(shù)據(jù)集未含蓋所有的“狀態(tài)-動(dòng)作”組合,會(huì)加劇行為策略與要學(xué)習(xí)的最優(yōu)策略之間的分布偏移,導(dǎo)致性能不佳。為緩解這一問題,通常采用顯式策略正則化[23]、隱式策略約束[24]和懲罰分布外動(dòng)作[25]等方法對(duì)策略進(jìn)行限制。目前已提出多種性能優(yōu)異的算法,如Dayan等人[26]在策略更新中添加行為克隆項(xiàng)并規(guī)范化數(shù)據(jù),性能與最先進(jìn)的離線強(qiáng)化學(xué)習(xí)算法相當(dāng)。Yang等人[27]引入擾動(dòng)狀態(tài)的保守平滑技術(shù),同時(shí)根據(jù)悲觀自舉主動(dòng)低估它們的Q值以保持保守。Chen等人[28]通過學(xué)習(xí)優(yōu)勢函數(shù)和狀態(tài)條件的潛變量空間,有效解決了多種模式數(shù)據(jù)分布的異質(zhì)離線強(qiáng)化學(xué)習(xí)任務(wù)。
離線強(qiáng)化學(xué)習(xí)適用于數(shù)據(jù)獲取昂貴、危險(xiǎn)或不可控的應(yīng)用場景,通過充分利用已有數(shù)據(jù),能夠顯著降低訓(xùn)練成本和時(shí)間開銷。然而,離線強(qiáng)化學(xué)習(xí)面臨著分布偏移、數(shù)據(jù)質(zhì)量依賴性等挑戰(zhàn),在實(shí)際應(yīng)用過程中,難以達(dá)到較好的效果。在線和離線強(qiáng)化學(xué)習(xí)中存在的問題促使離線-在線強(qiáng)化學(xué)習(xí)的研究。
1.3 離線-在線強(qiáng)化學(xué)習(xí)
現(xiàn)有的離線-在線強(qiáng)化學(xué)習(xí)算法根據(jù)在線設(shè)置的不同可分為無約束微調(diào)方法與約束微調(diào)方法兩類。
無約束微調(diào)強(qiáng)調(diào)去除在線階段的離線約束,促進(jìn)策略探索,幫助模型有效改進(jìn)。然而,早期的研究發(fā)現(xiàn)無約束微調(diào)初始階段容易出現(xiàn)嚴(yán)重的策略崩潰,在實(shí)際應(yīng)用中是不可接受的。近期,一些研究團(tuán)隊(duì)提出了有效的改進(jìn)方案。Feng等人[29]發(fā)現(xiàn)策略崩潰源于無約束微調(diào)與傳統(tǒng)強(qiáng)化學(xué)習(xí)框架的不匹配,通過調(diào)整價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)的更新比率,確保了訓(xùn)練的穩(wěn)定性;Zhang等人[30]通過擾動(dòng)值更新,防止早期策略選擇次優(yōu)動(dòng)作,同時(shí)增加Q值更新頻率,緩解從離線預(yù)訓(xùn)練繼承的估計(jì)偏差。
約束微調(diào)是離線-在線強(qiáng)化學(xué)習(xí)的主流方法,為了避免策略崩潰,現(xiàn)有方法通常保留離線約束,對(duì)策略和Q值進(jìn)行限制。文獻(xiàn)[31]考慮在線數(shù)據(jù)和離線數(shù)據(jù)之間的差異,并采用自適應(yīng)更新方案,離線數(shù)據(jù)集采用悲觀更新策略,在線數(shù)據(jù)集采用樂觀更新策略。Kostrikov等人[32]提出了適用于離線與在線階段的隱式Q學(xué)習(xí)算法,通過加權(quán)行為克隆改進(jìn)在線策略。Ball等人[33]通過修改網(wǎng)絡(luò)結(jié)構(gòu)、調(diào)整采樣策略,使異策略強(qiáng)化學(xué)習(xí)算法能夠有效利用離線數(shù)據(jù)。Nakamoto等人[34]提出保守的離線初始化方法,對(duì)Q函數(shù)進(jìn)行校準(zhǔn),避免初始遺忘并提高漸近性能。
盡管約束微調(diào)和無約束微調(diào)在許多任務(wù)中取得了一定成功,但微調(diào)過程中仍存在效率與穩(wěn)定性的權(quán)衡問題。此外,為了提升性能,現(xiàn)有方法引入了更多超參數(shù)和集成設(shè)置,導(dǎo)致訓(xùn)練緩慢的強(qiáng)化學(xué)習(xí)算法需要更長時(shí)間才能達(dá)到最佳性能。本文從Q值估計(jì)的角度,綜合兩種方法的優(yōu)勢,提出了DPC-DQRL,通過動(dòng)態(tài)行為克隆約束和離線-在線雙Q值網(wǎng)絡(luò),改善Q值估計(jì)問題,實(shí)現(xiàn)了高效、穩(wěn)定的微調(diào)。
2 離線-在線強(qiáng)化學(xué)習(xí)的效率與穩(wěn)定性分析
離線-在線強(qiáng)化學(xué)習(xí)目前存在微調(diào)階段效率與穩(wěn)定性權(quán)衡問題,為了說明這一問題,本文采用可視化約束微調(diào)與無約束微調(diào)兩種典型方法。使用TD3-BC(TD3 with behavior cloning)作為離線訓(xùn)練方法,在Walker2D-medium、Hopper-medium、Halfcheetah-medium任務(wù)中執(zhí)行100萬步策略更新后,將預(yù)訓(xùn)練的策略接入在線環(huán)境,分別使用約束微調(diào)(在線階段使用TD3-BC算法)、無約束微調(diào)方法(在線階段使用TD3算法)進(jìn)行25萬步在線微調(diào),實(shí)驗(yàn)結(jié)果如圖1所示。
圖1展示了在線微調(diào)過程中兩種方法的效率與穩(wěn)定性。橫軸為訓(xùn)練時(shí)間,縱軸為平均回報(bào)得分。實(shí)線表示算法5次獨(dú)立運(yùn)行在各評(píng)估周期的平均性能,陰影區(qū)域表示5次運(yùn)行的性能波動(dòng)范圍。約束微調(diào)(Cons)方法由于保守的約束限制,策略優(yōu)化效果較差,最終性能提升有限;無約束微調(diào)(Uncons)方法通過探索未知“狀態(tài)-動(dòng)作”,獲得了優(yōu)于Cons方法的性能,尤其在相對(duì)簡單的Halfcheetah任務(wù)中表現(xiàn)突出。然而,在微調(diào)過程中,Uncons方法波動(dòng)較大,特別是在較難的Walker2D和Hopper任務(wù)中,微調(diào)前期出現(xiàn)顯著性能下降,且短期微調(diào)難以使策略穩(wěn)定。因此,在微調(diào)階段策略探索新“狀態(tài)-動(dòng)作”是提高性能的有效方式,但要考慮模型的穩(wěn)定與收斂。
為了探究兩種方法在線微調(diào)中策略的穩(wěn)定情況,定義策略的歸一化累計(jì)遺忘(normalized cumulative forget,NCF),量化微調(diào)過程中模型相對(duì)于初始性能的波動(dòng)程度,公式如下:
NCF=∑Tt=0f(Rtlt;Rinit)×Rinit-RtRinit
(1)
其中:T表示微調(diào)的時(shí)長;Rt表示微調(diào)過程中t時(shí)刻策略的性能;Rinit表示預(yù)訓(xùn)練策略的性能;f是一個(gè)指示函數(shù),符合條件為1,否則為0。
圖2展示了兩種方法在微調(diào)階段的性能波動(dòng)。在Halfcheetah、Hopper、Walker2D中,運(yùn)行medium、medium-replay、medium-expert三種任務(wù),縱坐標(biāo)表示各任務(wù)中策略的平均波動(dòng)程度,average代表9個(gè)任務(wù)的平均波動(dòng)程度,數(shù)值越小表明微調(diào)過程中的模型越穩(wěn)定。Uncons方法在三個(gè)任務(wù)中的平均性能波動(dòng)是Cons方法的10.3倍。因此,添加約束條件能夠提高模型穩(wěn)定性,但需權(quán)衡其對(duì)性能提升的影響。
為了探究模型性能的影響因素,在訓(xùn)練中選取了兩種不同質(zhì)量的策略,進(jìn)行1 000步的策略評(píng)估,回報(bào)得分為5 010和3 346。在評(píng)估中,對(duì)每個(gè)“狀態(tài)-動(dòng)作”對(duì),通過動(dòng)作價(jià)值網(wǎng)絡(luò)估算Q值,并與環(huán)境真實(shí)獎(jiǎng)勵(lì)值及目標(biāo)Q值進(jìn)行比較,計(jì)算歸一化時(shí)序差分誤差(TD誤差)。強(qiáng)化學(xué)習(xí)采用時(shí)序差分法進(jìn)行Q值的估計(jì),TD誤差用于度量當(dāng)前估計(jì)與經(jīng)過一步更新后的新估計(jì)(Q target)之間的差異。通過最小化這一誤差,驅(qū)動(dòng)Q值的更新。在 Q-learning 中,Q target 是基于下一狀態(tài)的最大預(yù)期 Q 值定義的:
Qtarget=rt+1+γmaxaQ(st+1,a)
(2)
其中:rt+1為下一時(shí)刻的環(huán)境獎(jiǎng)勵(lì);γ∈(0,1)為折扣因子;st+1為下一時(shí)刻狀態(tài)。TD誤差δ的公式為
δt=rt+1+γmaxaQ(st+1,a)-Q(st,at)
(3)
Q值更新規(guī)則如下:
Q(st,at)=Q(st,at)+αrt+1+γmaxaQ(st+1,a)-Q(st,at)(4)
其中:α為學(xué)習(xí)率。
圖3展示了兩個(gè)策略的TD誤差概率密度分布,橫軸為歸一化TD誤差,縱軸為核密度估計(jì)?;貓?bào)得分為5 010策略相較于3 346的策略,TD誤差分布整體偏向數(shù)值較小的左邊。這表明,得分3 346的網(wǎng)絡(luò)尚未很好地?cái)M合Q值,導(dǎo)致對(duì)Q值估計(jì)不準(zhǔn)確。因此,Q值估計(jì)的準(zhǔn)確性是影響策略性能的關(guān)鍵因素。
為了探究Cons與Uncons兩類方法在訓(xùn)練中Q值準(zhǔn)確性的整體變化,每5 000步從在線重放緩沖區(qū)中隨機(jī)抽取1 000個(gè)“狀態(tài)-動(dòng)作”對(duì),計(jì)算歸一化TD誤差。圖4展示了微調(diào)過程中兩種方法的TD誤差變化,橫軸為訓(xùn)練時(shí)間,縱軸為歸一化TD誤差。Cons方法由于限制了價(jià)值網(wǎng)絡(luò)權(quán)重的調(diào)整,TD誤差維持在0.1左右,但性能提升有限。Uncons方法鼓勵(lì)網(wǎng)絡(luò)更新,導(dǎo)致初期TD誤差波動(dòng)大,最高達(dá)0.8,且下降緩慢,在25萬步時(shí)僅降至0.3左右。對(duì)比表明,Uncons方法Q值波動(dòng)較大,主要是因?yàn)轭A(yù)訓(xùn)練的價(jià)值網(wǎng)絡(luò)無法準(zhǔn)確評(píng)估新“狀態(tài)-動(dòng)作”;此外,在線強(qiáng)化學(xué)習(xí)采取的措施,如策略評(píng)估與改進(jìn)的解耦,未能快速調(diào)整價(jià)值網(wǎng)絡(luò)以降低TD誤差。
現(xiàn)有的Q值估計(jì)問題可以概括為如下兩點(diǎn):a)離線與在線數(shù)據(jù)存在分布偏移,繼承于預(yù)訓(xùn)練的價(jià)值網(wǎng)絡(luò)在未充分訓(xùn)練的情況下對(duì)新“狀態(tài)-動(dòng)作”對(duì)的Q值估計(jì)存在較大偏差;b)標(biāo)準(zhǔn)在線強(qiáng)化學(xué)習(xí)對(duì)Q值估計(jì)不準(zhǔn)確問題采取的措施在離線-在線強(qiáng)化學(xué)習(xí)中效果有限。
基于上述分析,本文從兩個(gè)方面對(duì)Q值估計(jì)問題進(jìn)行改進(jìn):
對(duì)于問題a),提出動(dòng)態(tài)策略約束的思想:在微調(diào)前期限制策略更新幅度,給予價(jià)值網(wǎng)絡(luò)充分的訓(xùn)練時(shí)間,提高Q值估計(jì)的準(zhǔn)確性;在價(jià)值網(wǎng)絡(luò)穩(wěn)定后放松約束條件,給予策略優(yōu)化空間,更好地權(quán)衡效率與穩(wěn)定性。在約束設(shè)計(jì)上,借鑒認(rèn)知科學(xué)領(lǐng)域記憶遺忘隨時(shí)間衰退負(fù)增長的特性,設(shè)計(jì)了動(dòng)態(tài)衰減的行為克隆約束項(xiàng);同時(shí)參考艾賓浩斯重放學(xué)習(xí)的記憶方式,在訓(xùn)練過程中加入離線數(shù)據(jù)緩解遺忘。
對(duì)于問題b),依據(jù)現(xiàn)有的策略“評(píng)估-改進(jìn)”框架進(jìn)行優(yōu)化,引入離線價(jià)值網(wǎng)絡(luò),與在線價(jià)值網(wǎng)絡(luò)共同評(píng)估Q值,構(gòu)建離線-在線雙Q值網(wǎng)絡(luò)。離線價(jià)值網(wǎng)絡(luò)保留了模型的初始評(píng)估性能,在微調(diào)前期參與決策,降低TD誤差;在線價(jià)值網(wǎng)絡(luò)隨微調(diào)不斷優(yōu)化,從而提高Q值估計(jì)的準(zhǔn)確性和整體模型性能。
3 動(dòng)態(tài)行為克隆約束的離線-在線雙Q值強(qiáng)化學(xué)習(xí)
3.1 基于艾賓浩斯記憶遺忘規(guī)律的動(dòng)態(tài)策略約束
在認(rèn)知科學(xué)領(lǐng)域,記憶通常被劃分為短時(shí)記憶和長時(shí)記憶。如果短時(shí)記憶未能有效轉(zhuǎn)換為長時(shí)記憶,便會(huì)出現(xiàn)遺忘現(xiàn)象。遺忘的過程往往呈現(xiàn)出先快后慢的趨勢,特別是在剛剛記憶后的短時(shí)間內(nèi),遺忘最為迅速[35]。艾賓浩斯通過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)人們學(xué)習(xí)新知識(shí)后,如果在一天內(nèi)未制定鞏固計(jì)劃進(jìn)行復(fù)習(xí),約75%的知識(shí)會(huì)被遺忘。隨著時(shí)間的推移,遺忘的速度減緩,遺忘的數(shù)量也逐漸減少。
離線強(qiáng)化學(xué)習(xí)切換到在線強(qiáng)化學(xué)習(xí)的過程中,存在相似的遺忘規(guī)律。盡管兩者學(xué)習(xí)的是相同的任務(wù),但由于離線數(shù)據(jù)集與在線環(huán)境的“狀態(tài)-動(dòng)作”分布存在差異,以及算法切換的影響,單純通過離線強(qiáng)化學(xué)習(xí)方法預(yù)訓(xùn)練與在線強(qiáng)化學(xué)習(xí)方法微調(diào)來訓(xùn)練模型,會(huì)導(dǎo)致微調(diào)過程中網(wǎng)絡(luò)相關(guān)權(quán)重的快速更新,損害先前任務(wù)的表現(xiàn)。
為了避免離線-在線強(qiáng)化學(xué)習(xí)的策略崩潰,本文借鑒記憶遺忘規(guī)律,設(shè)計(jì)了非線性的策略約束項(xiàng),動(dòng)態(tài)地限制訓(xùn)練過程中網(wǎng)絡(luò)相關(guān)權(quán)重的更新。在微調(diào)過程中,同時(shí)利用離線和在線數(shù)據(jù),其中離線數(shù)據(jù)用于不斷鞏固先前獲取的知識(shí),在線數(shù)據(jù)用于進(jìn)一步探索和提升策略性能。具體來說,傳統(tǒng)的策略迭代通過最大化Q值期望實(shí)現(xiàn),其策略梯度計(jì)算如下:
π=argmaxE(s,a)~D[Q(s,π(s))]
(5)
本文在最大化Q值的同時(shí),添加了由強(qiáng)到弱的動(dòng)態(tài)行為克隆約束,以限制策略的更新幅度。在訓(xùn)練初期,對(duì)策略施加強(qiáng)約束有兩個(gè)主要優(yōu)點(diǎn):a)限制策略網(wǎng)絡(luò)權(quán)重的快速變化,通過離線數(shù)據(jù)再學(xué)習(xí)防止策略崩潰;b)使用在線數(shù)據(jù)訓(xùn)練價(jià)值網(wǎng)絡(luò),較為準(zhǔn)確地估計(jì)Q值。隨著訓(xùn)練的進(jìn)行,逐步放松約束條件,鼓勵(lì)策略不斷探索和提升。策略梯度計(jì)算如下:
π=argmaxE(s,a)~D[λQ(s,π(s))-f(T)(π(s)-a)2]
(6)
其中:f(T)=11+log(T),T表示在線訓(xùn)練時(shí)間;D表示數(shù)據(jù)集。
3.2 強(qiáng)化Q值估計(jì):離線-在線雙Q值網(wǎng)絡(luò)
在線強(qiáng)化學(xué)習(xí)采用時(shí)序差分法對(duì)Q值進(jìn)行估計(jì),存在Q值估計(jì)不準(zhǔn)確的問題。盡管現(xiàn)有的在線強(qiáng)化學(xué)習(xí)算法已將策略的評(píng)估與改進(jìn)解耦,在一定程度上緩解了這一問題。然而,離線-在線強(qiáng)化學(xué)習(xí)中,由于存在分布偏移和算法切換等原因,僅依賴在線方法無法有效抑制波動(dòng)現(xiàn)象,從而影響算法的收斂和最終性能。為了改善這一問題并進(jìn)一步增強(qiáng)微調(diào)的穩(wěn)定性,設(shè)計(jì)了離線-在線雙Q值網(wǎng)絡(luò),如圖5所示。
離線-在線雙Q值網(wǎng)絡(luò)共有2個(gè)actor網(wǎng)絡(luò),4個(gè)critic網(wǎng)絡(luò)和一個(gè)離線critic網(wǎng)絡(luò)組成。actor網(wǎng)絡(luò)根據(jù)狀態(tài)s輸出動(dòng)作A,critic網(wǎng)絡(luò)評(píng)估s狀態(tài)下動(dòng)作A的價(jià)值。s′由環(huán)境狀態(tài)轉(zhuǎn)移給出。Q1、Q2分別為critic網(wǎng)絡(luò)1與critic網(wǎng)絡(luò)2評(píng)估的動(dòng)作價(jià)值,Q′為critic目標(biāo)網(wǎng)絡(luò)1、critic目標(biāo)網(wǎng)絡(luò)2與離線critic網(wǎng)絡(luò)評(píng)估下一時(shí)刻動(dòng)作價(jià)值的最小值,作為Q target。在對(duì)critic網(wǎng)絡(luò)1、critic網(wǎng)絡(luò)2進(jìn)行更新時(shí),以Q1、Q2與Q′的TD誤差為損失函數(shù),逐步優(yōu)化Q值估計(jì)。
具體而言,給定一個(gè)從離線訓(xùn)練獲得的策略πoffline,在進(jìn)入在線階段前進(jìn)行備份。隨后,使用離線策略初始化在線策略πonline,并與環(huán)境交互,持續(xù)更新策略。在微調(diào)過程中,策略改進(jìn)可能會(huì)帶來負(fù)面影響,actor網(wǎng)絡(luò)的權(quán)重更新可能導(dǎo)致“知識(shí)”遺忘,critic網(wǎng)絡(luò)的Q值估計(jì)也可能產(chǎn)生較大偏差。由于備份的離線critic網(wǎng)絡(luò)不受這些負(fù)面影響,能夠?qū)W(xué)習(xí)到的“狀態(tài)-動(dòng)作”進(jìn)行較為準(zhǔn)確的估計(jì)。因此,引入離線critic網(wǎng)絡(luò)有助于緩解潛在的負(fù)面改進(jìn)。本文將離線critic網(wǎng)絡(luò)引入在線的“狀態(tài)-動(dòng)作”評(píng)估中,分別使用離線critic網(wǎng)絡(luò)和在線critic目標(biāo)網(wǎng)絡(luò)評(píng)估動(dòng)作價(jià)值Qoff、Qon:
Qon=r+γmini=1,2Q′θi(s′,πtarget(s′))
(7)
Qoff=r+γQoff(s′,πtarget(s′))
(8)
取離線critic網(wǎng)絡(luò)與在線critic網(wǎng)絡(luò)評(píng)估的最小Q值作為Qtarget:
Qtarget=min(Qon,Qoff)
(9)
在critic網(wǎng)絡(luò)更新時(shí),最小化critic網(wǎng)絡(luò)1、critic網(wǎng)絡(luò)2評(píng)估的Q1、Q2與Qtarget之間的誤差:
l=(Q1-Qtarget)2+(Q2-Qtarget)2
(10)
3.3 DPC-DQRL算法
基于動(dòng)態(tài)行為克隆約束與離線-在線雙Q值網(wǎng)絡(luò),提出動(dòng)態(tài)策略約束的雙Q值強(qiáng)化學(xué)習(xí)(DPC-DQRL)算法,算法具體流程如下所示。
算法1 動(dòng)態(tài)策略約束的雙Q值強(qiáng)化學(xué)習(xí)算法
輸入:數(shù)據(jù)集D; 初始訓(xùn)練時(shí)長Tinit; 在線訓(xùn)練時(shí)長Ton; 在線緩沖池大小Son; 離線緩沖池大小Soff,采樣數(shù)量N。
輸出:critic網(wǎng)絡(luò)參數(shù)θ;policy網(wǎng)絡(luò)參數(shù)φ。
初始化在線緩沖池Bon為空,使用數(shù)據(jù)集D初始化離線緩沖池
使用離線預(yù)訓(xùn)練策略初始化critic網(wǎng)絡(luò)參數(shù)θ1、θ2, policy網(wǎng)絡(luò)參數(shù)φ, 以及目標(biāo)網(wǎng)絡(luò)參數(shù)θ′1、θ′2、φ′。
for t = 0 to Tinit do
探索環(huán)境并交互選擇動(dòng)作a~πφ(s)+N(0,σ)
存儲(chǔ)數(shù)據(jù)(s,a,r,s′)到在線緩沖池Bon
end for
for t = 0 to Ton do
探索環(huán)境并交互選擇動(dòng)作a~πφ(s)+N(0,σ)
存儲(chǔ)數(shù)據(jù)(s,a,r,s′)到在線緩沖池Bon
采樣N/2批量數(shù)據(jù)從在線緩沖池Bon
采樣N/2批量數(shù)據(jù)從離線緩沖池Boff
設(shè)置ε~N(0,σ)
下一時(shí)刻動(dòng)作a′=clip(π′φ(s′)+ε,-0.5,0.5)
更新critic網(wǎng)絡(luò)參數(shù)θi 通過式(11)
if t mod d then
更新動(dòng)態(tài)策略約束的policy網(wǎng)絡(luò)參數(shù)φ通過式(12)
更新目標(biāo)網(wǎng)絡(luò)參數(shù)θ′1、θ′2、φ′
""通過 θ′1←τθi+(1-τ)θ′1,φ′←τφ+(1-τ)φ
end if
end for
DPC-DQRL采用獨(dú)立的離線、在線數(shù)據(jù)緩沖池,以有效區(qū)分和利用離線、在線數(shù)據(jù)。離線數(shù)據(jù)緩沖池存儲(chǔ)離線數(shù)據(jù),用于重放學(xué)習(xí),防止策略性能大幅下降;在線數(shù)據(jù)緩沖池存儲(chǔ)交互數(shù)據(jù),采用先進(jìn)先出規(guī)則,確保微調(diào)使用的數(shù)據(jù)與當(dāng)前策略接近,促進(jìn)策略的探索和改進(jìn)。在訓(xùn)練前,初始化策略進(jìn)行在線交互,收集部分在線數(shù)據(jù)。微調(diào)階段,采用對(duì)稱采樣策略,即離線數(shù)據(jù)和在線數(shù)據(jù)各占50%,用于訓(xùn)練過程。使用式(11)更新critic網(wǎng)絡(luò):
θi=θi-αSymbolQC@θi1B∑(s,a,r,s′)∈B(Qθi-r-γi=on,offQθi(s′,a′))2(11)
其中:θ表示critic網(wǎng)絡(luò)參數(shù);B表示緩沖池;γ表示折扣率;on表示critic目標(biāo)網(wǎng)絡(luò)評(píng)估的Q值;off表示離線critic網(wǎng)絡(luò)評(píng)估的Q值。當(dāng)critic網(wǎng)絡(luò)評(píng)估較為穩(wěn)定時(shí),使用式(12)更新策略網(wǎng)絡(luò):
φ=φ+SymbolQC@φ1B∑(s,a)∈BλQθ1(s,πφ(s))-11+log(T)(π(s)-a)2(12)
其中:φ代表policy網(wǎng)絡(luò)參數(shù);λ為平衡因子,設(shè)置為2.5;T代表迭代時(shí)間。
4 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)在OpenAI Gym仿真平臺(tái)上進(jìn)行。Gym是強(qiáng)化學(xué)習(xí)領(lǐng)域的標(biāo)準(zhǔn)API,提供了多種仿真環(huán)境,如機(jī)器人模擬、Atari游戲等。為有效評(píng)估算法性能,選擇MuJoCo物理引擎進(jìn)行實(shí)驗(yàn),進(jìn)行了HalfCheetah-v2、Hopper-v2和Walker2D-v2三個(gè)機(jī)器人仿真任務(wù),其中v表示版本號(hào)。
Halfcheetah是一個(gè)二維機(jī)器人,由 9 個(gè)連桿和連接它們的 8 個(gè)關(guān)節(jié)組成。Halfcheetah的軀干和頭部固定,扭矩只能施加在大腿前后部、小腿和腳的另外 6 個(gè)關(guān)節(jié)上。目標(biāo)是對(duì)關(guān)節(jié)施加扭矩,使獵豹盡可能快地向前奔跑,扭矩為(-1,1)。獎(jiǎng)勵(lì)函數(shù)reward = forward_reward-ctrl_cost。forward_reward為向前移動(dòng)的獎(jiǎng)勵(lì),ctrl_cost為對(duì)采取的動(dòng)作過大進(jìn)行懲罰的成本。
Hopper是一個(gè)二維的獨(dú)腿機(jī)器人,主要身體部位由軀干、大腿、小腿、腳組成。目標(biāo)是通過在連接四個(gè)身體部位的三個(gè)鉸鏈上施加扭矩來實(shí)現(xiàn)向前移動(dòng)的跳躍,扭矩為(-1,1)。獎(jiǎng)勵(lì)函數(shù)reward = healthy_reward bonus + forward_reward - ctrl_cost。healthy_reward bonus表示W(wǎng)alker2D存活的時(shí)間步,其余與Halfcheetah一致。
Walker2D是一個(gè)二維的兩足機(jī)器人,主要身體部位由軀干、軀干下方中間的兩條大腿、大腿下方底部的兩條腿以及連接到腿上的兩只腳組成。目標(biāo)是通過在連接六個(gè)身體部位的六個(gè)鉸鏈上施加扭矩,使兩組腳、腿協(xié)調(diào)向前方向移動(dòng),扭矩為(-1,1)。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)與Hopper一致。機(jī)器人仿真任務(wù)如圖6所示。
為實(shí)現(xiàn)有效的離線預(yù)訓(xùn)練,選用D4RL(datasets for deep data-driven reinforcement learning)[36]離線基準(zhǔn)數(shù)據(jù)集。D4RL是專為數(shù)據(jù)驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)設(shè)計(jì)的標(biāo)準(zhǔn)數(shù)據(jù)集,方便研究人員對(duì)離線強(qiáng)化學(xué)習(xí)算法進(jìn)行公平一致的評(píng)估。每個(gè)實(shí)驗(yàn)任務(wù)使用三種不同的離線數(shù)據(jù)集。medium數(shù)據(jù)集由部分訓(xùn)練的SAC策略在中途停止后收集;medium-replay數(shù)據(jù)集包含SAC算法訓(xùn)練過程中緩沖區(qū)中的所有樣本;medium-expert數(shù)據(jù)集則是由專家策略和中等策略數(shù)據(jù)的混合組成。
4.2 實(shí)驗(yàn)設(shè)置
每個(gè)實(shí)驗(yàn)任務(wù),所有算法均獨(dú)立運(yùn)行五個(gè)隨機(jī)種子,取值為0~4的整數(shù)。具體實(shí)驗(yàn)流程如下:a)使用離線數(shù)據(jù)集訓(xùn)練初始策略,執(zhí)行100萬步策略更新,得到預(yù)訓(xùn)練策略;b)加載預(yù)訓(xùn)練策略作為在線策略,與環(huán)境交互收集數(shù)據(jù),并進(jìn)行25萬步的在線微調(diào)。在線微調(diào)階段每5 000步進(jìn)行一次策略評(píng)估,評(píng)估時(shí)加載策略并獨(dú)立運(yùn)行10個(gè)隨機(jī)種子,計(jì)算10次測試的平均回報(bào)得分,作為算法性能的衡量指標(biāo)。
DPC-DQRL使用深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn),評(píng)論家網(wǎng)絡(luò)和行動(dòng)者網(wǎng)絡(luò)均采用具有兩個(gè)隱藏層的線性神經(jīng)網(wǎng)絡(luò),激活函數(shù)為ReLU,優(yōu)化器使用Adam。DPC-DQRL為區(qū)分在線與離線數(shù)據(jù)緩沖池,引入online_replay_buffer與offline_replay_buffer參數(shù),online_replay_buffer設(shè)置較小以保證微調(diào)所使用的數(shù)據(jù)與當(dāng)前策略接近,其余參數(shù)設(shè)置與對(duì)比方法保持一致。關(guān)鍵參數(shù)設(shè)置如表1所示。
4.3 對(duì)比實(shí)驗(yàn)
將以下離線-在線強(qiáng)化學(xué)習(xí)方法作為基線方法與本文方法進(jìn)行比較評(píng)估。
a)AWAC[10]。通過actor-critic方法的優(yōu)勢加權(quán)形式,將最大化Q值的目標(biāo)轉(zhuǎn)換為最大化優(yōu)勢函數(shù),同時(shí)限制兩個(gè)策略的KL散度,使策略模仿數(shù)據(jù)集中具有高優(yōu)勢估計(jì)的動(dòng)作。
b)DIRECT[32]。使用IQL直接將離線訓(xùn)練的參數(shù)轉(zhuǎn)移到在線階段。IQL是一種近期且具有代表性的強(qiáng)化學(xué)習(xí)算法,利用狀態(tài)價(jià)值函數(shù)與均方誤差損失訓(xùn)練Q函數(shù),在離線強(qiáng)化學(xué)習(xí)方面展現(xiàn)了最先進(jìn)的性能,同時(shí)也允許在線階段進(jìn)行微調(diào)。
c)PEX[13]。利用離線階段得到的策略與新構(gòu)造的策略,以合作且自適應(yīng)的方式進(jìn)行在線的探索和學(xué)習(xí)。對(duì)于某個(gè)狀態(tài),計(jì)算每個(gè)策略決策出的動(dòng)作的Q值,構(gòu)建類別分布,通過玻爾茲曼分布采樣出最終與環(huán)境交互的動(dòng)作。
完成5次獨(dú)立訓(xùn)練后,加載模型進(jìn)行評(píng)估,表2展示了DPC-DQRL與基線方法在9種任務(wù)中獲得的歸一化回報(bào)得分的均值和標(biāo)準(zhǔn)差,表現(xiàn)最佳的數(shù)據(jù)(以均值為標(biāo)準(zhǔn))加粗標(biāo)記。整體而言,DPC-DQRL在9個(gè)任務(wù)中的總回報(bào)得分比AWAC高出10%,比DIRECT高22%,比PEX高21%。具體而言,DPC-DQRL在8個(gè)任務(wù)中表現(xiàn)最佳,僅在Hopper-medium-expert任務(wù)上低于AWAC 1.9分。此外,相較于其他三種算法,DPC-DQRL在實(shí)現(xiàn)較高訓(xùn)練效率和最終性能的同時(shí),保持了較低的標(biāo)準(zhǔn)差,僅次于AWAC 6.9,展現(xiàn)出良好的穩(wěn)定性。
圖7展示了DPC-DQRL與基線方法在MuJoCo仿真任務(wù)中的在線學(xué)習(xí)曲線,實(shí)線表示算法5次獨(dú)立運(yùn)行在各評(píng)估周期的平均性能,陰影區(qū)域則表示5次運(yùn)行的性能波動(dòng)范圍(見電子版)。經(jīng)過微調(diào)后,DPC-DQRL性能提升顯著,與預(yù)訓(xùn)練模型相比,在Halfcheetah任務(wù)中提升47%,在Hopper任務(wù)中提升63%,在Walker2D任務(wù)中提升20%。DPC-DQRL在7個(gè)環(huán)境中微調(diào)穩(wěn)定,在Halfcheetah與Hopper的medium-expert任務(wù)訓(xùn)練前期出現(xiàn)了較為明顯的性能下降。這是由于使用中等專家數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練后模型整體性能處于較高水準(zhǔn),在線微調(diào)時(shí)模型進(jìn)行探索與利用的多次切換,導(dǎo)致Q值更新不穩(wěn)定,影響了模型性能。在較短時(shí)間的微調(diào)后,模型性能恢復(fù)并逐漸提升,最終也取得了具有競爭力的性能。
基線方法AWAC和DIRECT的性能高度依賴于離線數(shù)據(jù)集的質(zhì)量。在medium-expert任務(wù)中,AWAC在三個(gè)任務(wù)中分別獲得了11 521、3 626和5 121的得分,表現(xiàn)出競爭力,但在medium和medium-replay任務(wù)中性能較差。DIRECT在medium任務(wù)中的回報(bào)得分僅為6 808、2 857和4 090。這主要是由于AWAC和DIRECT在設(shè)置中采用悲觀更新規(guī)則,導(dǎo)致微調(diào)速度緩慢。AWAC在Halfcheetah中僅提升8%,在Hopper和Walker 2D中分別提升16%和15%;DIRECT在微調(diào)后的提升分別為9%、26%和9%。相比之下,DPC-DQRL通過動(dòng)態(tài)調(diào)整策略的約束強(qiáng)度,實(shí)現(xiàn)了更快的微調(diào),同時(shí)保持了較好的穩(wěn)定性。
PEX在Halfcheetah任務(wù)中微調(diào)后性能提升了28%,但在Hopper和Walker2D任務(wù)中的模型性能波動(dòng)較大,尤其在Hopper-medium和Hopper-medium-expert任務(wù)中,在訓(xùn)練前期的評(píng)估得分甚至低于1 000分,表明PEX未能有效保持離線預(yù)訓(xùn)練模型的性能。這主要由于PEX在線策略從零開始訓(xùn)練,導(dǎo)致微調(diào)初期無法提供合理的動(dòng)作選擇。相比之下,DPC-DQRL保留離線價(jià)值網(wǎng)絡(luò)參與Q值評(píng)估,間接避免了策略崩潰,因此在微調(diào)過程中表現(xiàn)出更好的穩(wěn)定性和效率。
4.4 消融實(shí)驗(yàn)
動(dòng)態(tài)策略約束對(duì)效率與穩(wěn)定性的權(quán)衡:與基線方法相比,DPC-DQRL在訓(xùn)練效率和最終性能方面表現(xiàn)出色。為了驗(yàn)證DPC-DQRL在保持高效率與高性能的同時(shí)是否兼顧了訓(xùn)練過程的穩(wěn)定性,將其與無約束微調(diào)方法(在線階段使用TD3)和約束微調(diào)方法(在線階段使用TD3-BC)進(jìn)行比較,可視化三種方法在微調(diào)過程中的模型性能波動(dòng),如圖8所示。
橫坐標(biāo)表示實(shí)驗(yàn)任務(wù),縱坐標(biāo)表示性能波動(dòng)程度。結(jié)果顯示,DPC-DQRL在訓(xùn)練穩(wěn)定性上優(yōu)于Uncons方法。在Hopper和Walker2D任務(wù)中,DPC-DQRL的性能下降僅比Cons方法高0.09和0.19,在所有任務(wù)的平均表現(xiàn)上與Cons方法有0.06的差距。這表明DPC-DQRL在效率與穩(wěn)定性之間進(jìn)行了合理的權(quán)衡。
離線-在線Q網(wǎng)絡(luò)對(duì)微調(diào)穩(wěn)定性的影響:為了驗(yàn)證離線-在線雙Q值網(wǎng)絡(luò)對(duì)算法穩(wěn)定性的影響,在Walker2D-medium和Hopper-medium任務(wù)中進(jìn)行消融實(shí)驗(yàn),如圖9所示。
從訓(xùn)練效率來看,兩種模型在25萬步的微調(diào)后,最終回報(bào)得分均在5 000和3 500分。這表明,在線階段引入離線Q網(wǎng)絡(luò)參與動(dòng)作評(píng)估并未影響算法性能提升。另一方面,僅使用在線Q網(wǎng)絡(luò)評(píng)估動(dòng)作的模型在微調(diào)前10萬步,出現(xiàn)了顯著的性能波動(dòng)。相比之下,使用離線-在線雙Q值網(wǎng)絡(luò)的模型在微調(diào)過程中展現(xiàn)出更好的穩(wěn)定性。
離線數(shù)據(jù)對(duì)微調(diào)的影響:在Walker2D任務(wù)中進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證離線數(shù)據(jù)在微調(diào)中的作用:a)DPC-DQRL只使用在線數(shù)據(jù)更新策略;b)DPC-DQRL同時(shí)使用離線與在線數(shù)據(jù)更新策略。
如圖10所示,在線階段不使用離線數(shù)據(jù)會(huì)導(dǎo)致多次策略崩潰,在Walker2D-medium和Walker2D-medium-replay任務(wù)中表現(xiàn)得尤為明顯。引入離線數(shù)據(jù)能夠有效減輕策略波動(dòng)的頻率和幅度,從而提升整體性能。
5 結(jié)束語
本文提出了動(dòng)態(tài)策略約束的雙Q值強(qiáng)化學(xué)習(xí)算法DPC-DQRL。該算法基于記憶遺忘規(guī)律設(shè)計(jì)了非線性的行為克隆約束項(xiàng),動(dòng)態(tài)調(diào)整策略的約束強(qiáng)度,以適應(yīng)在線微調(diào)的不同階段。為了改善分布偏移導(dǎo)致的Q值估計(jì)問題,構(gòu)建了離線-在線雙Q值網(wǎng)絡(luò),提高微調(diào)階段Q值估計(jì)的準(zhǔn)確性,使策略能夠更自然地過渡到在線階段。在Gym仿真平臺(tái)使用MuJoCo物理引擎進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明,DPC-DQRL在訓(xùn)練過程中兼顧了效率與穩(wěn)定性,并取得了優(yōu)異的性能。
下一步的研究重點(diǎn)是將DPC-DQRL應(yīng)用于實(shí)際問題,探討其在應(yīng)對(duì)現(xiàn)實(shí)世界中的復(fù)雜和不確定性決策時(shí)的適應(yīng)性與效果,為解決復(fù)雜任務(wù)提供高效且風(fēng)險(xiǎn)、成本可控的方法。
參考文獻(xiàn):
[1]龍宇杰, 修熙, 黃慶, 等. 基于深度強(qiáng)化學(xué)習(xí)的電子政務(wù)云動(dòng)態(tài)化任務(wù)調(diào)度方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(6): 1797-1802. (Long Yujie, Xiu Xi, Huang Qing, et al. Scheduling of dynamic tasks in e-government clouds using deep reinforcement learning [J]. Application Research of Computers, 2024, 41(6): 1797-1802.)
[2]秦浩, 張維石. 基于合作博弈和強(qiáng)化學(xué)習(xí)的優(yōu)先信號(hào)控制方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(11): 3350-3356. (Qin Hao, Zhang Weishi. Control method of transit signal priority based on coalitional bargaining games and reinforcement learning [J]. Application Research of Computers, 2024, 41(11): 3350-3356.)
[3]劉珈麟, 賀澤宇, 李俊. 異策略模仿-強(qiáng)化學(xué)習(xí)序列推薦算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(5): 1349-1355. (Liu Jialin, He Zeyu, Li Jun. Off-policy imitation-reinforcement learning for sequential recommendation [J]. Application Research of Compu-ters, 2024, 41(5): 1349-1355.)
[4]徐平安, 劉全, 郝少璞, 等. 融合引力搜索的雙延遲深度確定策略梯度方法 [J]. 軟件學(xué)報(bào), 2023, 34(11): 5191-5204. (Xu Ping’an, Liu Quan, Hao Shaopu, et al. Twin-delayed-based deep deterministic policy gradient method integrating gravitational search [J]. Journal of Software, 2023, 34(11): 5191-5204.)
[5]Wang Xu, Wang Sen, Liang Xingxing, et al. Deep reinforcement learning: a survey [J]. IEEE Trans on Neural Networks and Learning Systems, 2024, 35(4): 5064-5078.
[6]胡子劍, 高曉光, 萬開方, 等. 異策略深度強(qiáng)化學(xué)習(xí)中的經(jīng)驗(yàn)回放研究綜述 [J]. 自動(dòng)化學(xué)報(bào), 2023, 49(11): 2237-2256. (Hu Zijian, Gao Xiaoguang, Wan Kaifang, et al. Research on experience replay of off-policy deep reinforcement learning: a review [J]. Acta Automatica Sinica, 2023, 49(11): 2237-2256.)
[7]烏蘭,劉全,黃志剛,等.離線強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2025,48(1):156-187.(Wu Lan, Liu Quan, Huang Zhigang, et al. A survey on offline reinforcement learning[J]. Chinese Journal of Computers, 2025,48(1):156-187.)
[8]馮渙婷, 程玉虎, 王雪松. 基于不確定性估計(jì)的離線確定型Actor-Critic [J]. 計(jì)算機(jī)學(xué)報(bào), 2024, 47(4): 717-732. (Feng Huanting, Cheng Yuhu, Wang Xuesong. Offline deterministic Actor-Critic based on uncertainty estimation [J]. Chinese Journal of Computers, 2024, 47(4): 717-732.)
[9]Haarnoja T, Zhou A, Abbeel P,et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor [EB/OL]. (2018-01-04). https://arxiv.org/abs/1801.01290.
[10]Nair A, Gupta A, Dalal M, et al. AWAC: accelerating online reinforcement learning with offline datasets [EB/OL]. (2020-06-16). https://arxiv.org/abs/2006.09359.
[11]Lee S, Seo Y, Lee K,et al. Offline-to-online reinforcement learning via balanced replay and pessimistic Q-ensemble[C]// Proc of Conference on Robot Learning.[S.l.]: PMLR, 2022: 1702-1712.
[12]Zhao Yi, Boney R, Ilin A, et al. Adaptive behavior cloning regularization for stable offline-to-online reinforcement learning [EB/OL]. (2022-10-25). https://arxiv.org/abs/2210.13846.
[13]Zhang Haichao, Xu We, Yu Haonan. Policy expansion for bridging offline-to-online reinforcement learning [EB/OL]. (2023-04-15). https://arxiv.org/abs/2302.00935.
[14]Guo Siyuan, Sun Yanchao, Hu Jifeng, et al. A simple unified uncertainty-guided framework for offline-to-online reinforcement lear-ning [EB/OL]. (2024-02-21). https://arxiv.org/abs/2306.07541.
[15]Mark M S, Ghadirzadeh A, Chen Xi, et al. Fine-tuning offline policies with optimistic action selection [EB/OL]. (2023-02-02). https://nips.cc/virtual/2022/64152.
[16]Mao Yihuan, Wang Chao, Wang Bin, et al. MOORe: model-based offline-to-online reinforcement learning [EB/OL]. (2022-01-25). https://arxiv.org/abs/2201.10070.
[17]Mnih V, Kavukcuoglu K, Silver D,et al. Human-level control through deep reinforcement learning [J]. Nature, 2015, 518(7540): 529-533.
[18]Fujimoto S, Hoof H V, Meger D. Addressing function approximation error in actor-critic methods[C]// Proc of International Conference on Machine Learning.[S.l.]: PMLR, 2018: 1587-1596.
[19]Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms [EB/OL]. (2017-08-28). https://arxiv.org/abs/1707.06347.
[20]Chen Xinyue, Wang Che, Zhou Zijian, et al. Randomized ensembled double Q-learning: learning fast without a model[EB/OL]. (2021-03-18). https://arxiv.org/abs/2101.05982.
[21]Aitchison M H, Sweetser P. DNA: proximal policy optimization with a dual network architecture[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2022: 35921-35932.
[22]李林, 劉政, 南海, 等. 基于改進(jìn)雙重深度Q網(wǎng)絡(luò)主動(dòng)學(xué)習(xí)語義分割模型 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(11): 3337-3342. (Li Lin, Liu Zheng, Nan Hai, et al. Active learning semantic segmentation model based on improved double deep Q network [J]. Application Research of Computers, 2024, 41(11): 3337-3342.)
[23]Fujimoto S, Meger D, Precup D. Off-policy deep reinforcement learning without exploration[C]// Proc of International Conference on Machine Learning.[S.l.]: PMLR, 2019: 2052-2062.
[24]Zhou Wenxuan, Bajracharya S, Held D. PLAS: latent action space for offline reinforcement learning[C]// Proc of Conference on Robot Learning.[S.l.]: PMLR, 2021: 1719-1735.
[25]Kumar A, Zhou A, Tucker G,et al. Conservative Q-learning for offline reinforcement learning[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 1179-1191.
[26]Dayan P. Motivated reinforcement learning[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 20132-20145.
[27]Yang R, Bai C, Ma X, et al. RORL: robust offline reinforcement learning via conservative smoothing[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2022: 23851-23866.
[28]Chen Xi, Ghadirzadeh A, Yu Tianhe, et al. Latent-variable advantage-weighted policy optimization for offline RL [EB/OL]. (2022-03-16). https://arxiv.org/abs/2203.08949.
[29]Feng Jiaheng, Feng Mingxiao, Song Haolin, et al. SUF: stabilized unconstrained fine-tuning for offline-to-online reinforcement learning[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2024: 11961-11969.
[30]Zhang Yinmin, Liu Jie, Li Chuming, et al. A perspective of Q-value estimation on offline-to-online reinforcement learning[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2024: 16908-16916.
[31]Zheng Han, Luo Xufang, Wei Pengfei, et al. Adaptive policy lear-ning for offline-to-online reinforcement learning [C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2023: 11372-11380.
[32]Kostrikov I, Nair A, Levine S. Offline reinforcement learning with implicit Q-learning [EB/OL]. (2021-10-12). https://arxiv.org/abs/2110.06169.
[33]Ball P J, Smith L, Kostrikov I,et al. Efficient online reinforcement learning with offline data[C]//Proc of the 40th International Confe-rence on Machine Learning. New York: ACM Press, 2023: 1577-1594.
[34]Nakamoto M, Zhai Yuexiang, Singh A, et al. Cal-Ql: calibrated offline RL pre-training for efficient online fine-tuning[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2024: 62244-62269.
[35]Murre J M J, Dros J. Replication and analysis of Ebbinghaus’ forgetting curve[J]. PLoS One, 2015, 10(7): e0120644.
[36]Fu J, Kumar A, Nachum O, et al. D4RL: datasets for deep data-driven reinforcement learning [EB/OL]. (2021-02-06). https://arxiv.org/abs/2004.07219.