摘" 要: 針對深度強化學(xué)習(xí)算法在部分可觀測環(huán)境中面臨的稀疏獎勵、信息缺失等問題,提出一種結(jié)合好奇心模塊與自模仿學(xué)習(xí)的近端策略優(yōu)化算法。該算法利用隨機網(wǎng)絡(luò)來生成探索過程中的經(jīng)驗樣本數(shù)據(jù),然后利用優(yōu)先經(jīng)驗回放技術(shù)選取高質(zhì)量樣本,通過自模仿學(xué)習(xí)對優(yōu)秀的序列軌跡進行模仿,并更新一個新的策略網(wǎng)絡(luò)用于指導(dǎo)探索行為。在Minigrid環(huán)境中設(shè)置了消融與對比實驗,實驗結(jié)果表明,所提算法在收斂速度上具有明顯優(yōu)勢,并且能夠完成更為復(fù)雜的部分可觀測環(huán)境探索任務(wù)。
關(guān)鍵詞: 好奇心模塊; 自模仿學(xué)習(xí); 深度強化學(xué)習(xí); 近端策略優(yōu)化; 隨機網(wǎng)絡(luò); 優(yōu)先經(jīng)驗回放
中圖分類號: TN911?34; TP242.6" " " " " " " " " "文獻標識碼: A" " " " " " " " " " 文章編號: 1004?373X(2024)16?0137?08
Exploration algorithm based on intrinsic curiosity and SIL
Lü Xianglin1, 2, ZANG Zhaoxiang1, 2, LI Sibo1, 2, ZOU Yaobin1, 2
(1. Hubei Key Laboratory of Intelligent Vision Monitoring for Hydropower Engineering, China Three Gorges University, Yichang 443002, China;
2. School of Computer and Information, China Three Gorges University, Yichang 443002, China)
Abstract: In allusion to the problems of sparse rewards and missing information faced by deep reinforcement learning algorithm in partially observable environments, a proximal policy optimization algorithm combining curiosity module and self?imitation learning (SIL) is proposed. In this algorithm, the random network is used to generate empirical sample data during the exploration process, and then the priority experience replay technology is used to select high?quality samples. The excellent sequence trajectories are imitated by means of SIL, and a new policy network is updated to guide the exploration behavior. The ablation and comparison experiments were performed in the Minigrid environment. The experimental results show that the proposed algorithm has a significant advantage in convergence speed and can complete more complex exploration tasks of partially observable environments.
Keywords: curiosity module; self?imitation learning; deep reinforcement learning; proximal policy optimization; random network; priority experience replay
0" 引" 言
部分可觀測馬爾科夫過程(POMDP)是指智能體在探索過程的視野受限,僅能通過掌握局部環(huán)境的觀測信息進行問題分析與建模,并智能化地做出后續(xù)決策。近年來,深度強化學(xué)習(xí)算法已在多智能體對抗游戲[1?3]、機器人控制[4?6]、自動駕駛[7?10]和兵棋推演[11?12]等諸多非完全信息的任務(wù)中取得了巨大的成功。
POMDP任務(wù)存在信息缺失與稀疏獎勵等問題,目前學(xué)者們主要采用回放歷史信息、循環(huán)神經(jīng)網(wǎng)絡(luò)以及好奇心探索機制等方法來解決信息缺失和稀疏獎勵問題。文獻[13]按照所收集的經(jīng)驗樣本的時序誤差不同,賦予每個樣本不同的優(yōu)先概率,有效地利用過去的探索經(jīng)驗優(yōu)化了訓(xùn)練效果。文獻[14]結(jié)合強化學(xué)習(xí)算法與優(yōu)先經(jīng)驗回放加速了POMDP任務(wù)的收斂,能夠處理更復(fù)雜的對話管理場景。基于最大熵思想,文獻[15]還提出了自模仿學(xué)習(xí)(Self?Imitation Learning, SIL)算法,通過模仿過去表現(xiàn)良好的樣本軌跡進行學(xué)習(xí),極大地提升了探索效率。文獻[16]通過將記憶引入TD3算法,提出了基于長短期記憶的雙延遲深度確定性策略梯度算法(LSTM?TD3)。文獻[17]通過將長短期記憶與深度Q網(wǎng)絡(luò)相結(jié)合,修改DQN以處理噪聲觀測特征。但是探索環(huán)境通常呈現(xiàn)動態(tài)變化性或具有基于回合(episode)產(chǎn)生變化的特征,這使得融合了循環(huán)神經(jīng)網(wǎng)絡(luò)的深度強化學(xué)習(xí)算法在解決這些環(huán)境中面臨的稀疏獎勵問題時變得困難。而基于回放歷史信息的方法依賴于過去表現(xiàn)良好的經(jīng)驗數(shù)據(jù),一旦空間狀態(tài)變得復(fù)雜,智能體就很難獲取到有價值的數(shù)據(jù)樣本。為解決上述問題,文獻[18]利用人類內(nèi)在的好奇心這一概念,提出了好奇心探索機制,依據(jù)智能體所采集的空間信息給予相應(yīng)的內(nèi)在獎勵。ICM(Intrinsic Curiosity Module)算法[19]和RND(Random Network Distillation)算法[20]主要計算不同網(wǎng)絡(luò)之間的特征差異,可用于激發(fā)智能體探索不同場景。但上述好奇心算法也存在過度探索的問題,智能體在環(huán)境中容易忽視已經(jīng)學(xué)到的有效策略,從而導(dǎo)致學(xué)習(xí)過程的低效性和不穩(wěn)定性。本文在好奇心算法基礎(chǔ)上,引入自模仿學(xué)習(xí)算法來增強對已有經(jīng)驗數(shù)據(jù)的利用,以此提出了一種融合好奇心與自模仿學(xué)習(xí)的近端策略優(yōu)化算法(Proximal Policy Optimization Algorithm with Curiosity Module and Self?Imitation Learning, PPO?CI),進而達到解決POMDP探索任務(wù)中的稀疏獎勵與信息缺失等問題的目的。
1" 相關(guān)技術(shù)
1.1" 優(yōu)先經(jīng)驗回放
由文獻[21]中DeepMind提出的經(jīng)驗回放機制通過將過去的探索經(jīng)驗存儲至經(jīng)驗池,然后隨機抽取批次大小的經(jīng)驗進行訓(xùn)練,打破訓(xùn)練數(shù)據(jù)之間的相關(guān)性,從而提高算法的穩(wěn)定性與泛化能力。優(yōu)先經(jīng)驗回放機制[13]通過賦予各樣本數(shù)據(jù)不同的優(yōu)先級,改變樣本數(shù)據(jù)的被采樣概率。樣本數(shù)據(jù)優(yōu)先級[p]通過時序差分誤差[δ]來衡量,其計算公式如下:
[δ=r+maxa′γQ(s',a')-Q(s,a)] (1)
[p=δ] (2)
式中:[r]表示當前所得獎勵值;[Q(s',a')]表示目標網(wǎng)絡(luò)[Q]值,由下一狀態(tài)[s']在采取動作[a']時所得;[Q(s,a)]表示當前[s]狀態(tài)采取動作[a]計算所得的[Q]值。根據(jù)所得的優(yōu)先級[p]進行概率采樣,經(jīng)驗樣本采樣的概率公式為:
[P(i)=pαii=1npαi] (3)
式中:[α]表示優(yōu)先級調(diào)節(jié)參數(shù);[n]表示采樣的樣本數(shù)量。
優(yōu)先經(jīng)驗回放會將TD誤差和經(jīng)驗數(shù)據(jù)一同存進經(jīng)驗池,并為每個經(jīng)驗數(shù)據(jù)賦予一個與其TD誤差大小成正比的采樣概率[P(i)]。
1.2" ICM算法
好奇心機制通過給予智能體內(nèi)在獎勵激發(fā)探索的動力,其中具有代表性的為D. Pathak等人提出的內(nèi)在好奇心模塊(ICM)[19],其算法模型如圖1所示。ICM算法利用逆向動力學(xué)模型和前向動力學(xué)模型來學(xué)習(xí)一個新的特征空間,通過策略網(wǎng)絡(luò)預(yù)測的下一狀態(tài)信息與ICM動力學(xué)模型所預(yù)測的下一狀態(tài)信息差異計算出對應(yīng)的內(nèi)在獎勵值。
圖1中,算法輸入為決策模型所得當前狀態(tài)值[st]、當前采取動作[at]和下一狀態(tài)信息[st+1]。[?(st)]為狀態(tài)[st]的特征編碼;而[?(st+1)]是[?(st+1)]的預(yù)測估計,由[?(st)]與動作[at]計算所得。[at]為由狀態(tài)映射信息[?(st)]和[?(st+1)]計算所得的動作預(yù)測值;[rit]為經(jīng)動力學(xué)模型計算所得的內(nèi)在獎勵值。而[?(st+1)]和[rit]計算公式為:
[?(st+1)=f(?(st),at;θF)] (4)
[rit=η2?(st+1)-?(st+1)22] (5)
ICM算法的損失函數(shù)如下:
[LForward(?(st+1),?(st+1))=12?(st+1)-?(st+1)22] (6)
[at=g(?(st),?(st+1);θI)] (7)
[LInverse(at,at)=12at-at22] (8)
式中:[f]是前向模型的網(wǎng)絡(luò)函數(shù);[θF]為前向模型的網(wǎng)絡(luò)參數(shù);[η]是縮放因子;[LForward]為前向模型的計算損失值;[θF]為通過最小化損失函數(shù)[LForward]來優(yōu)化前向模型的網(wǎng)絡(luò)參數(shù);[g]是逆向模型的網(wǎng)絡(luò)函數(shù);[θI]為逆向模型的網(wǎng)絡(luò)參數(shù);[LInverse]為逆向模型的計算損失值,用于優(yōu)化逆向模型的網(wǎng)絡(luò)參數(shù)[θI]。
1.3" 自模仿學(xué)習(xí)
自模仿學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí)方法,它通過自主探索和學(xué)習(xí)來生成和改進策略,以達到優(yōu)化目標的目的。首先,智能體使用當前策略網(wǎng)絡(luò)與環(huán)境互動產(chǎn)生探索經(jīng)驗與累計獎勵并存入經(jīng)驗池;然后,自模仿學(xué)習(xí)算法從經(jīng)驗池中選擇具有高獎勵或優(yōu)質(zhì)性能的軌跡片段作為模仿的目標,從選定的優(yōu)質(zhì)軌跡中提取子軌跡,并基于選定的子軌跡構(gòu)建一個新的策略網(wǎng)絡(luò),用于模仿優(yōu)質(zhì)軌跡中的行為;接著,使用選定的子軌跡訓(xùn)練智能體的策略網(wǎng)絡(luò),通過反復(fù)迭代訓(xùn)練和更新智能體的策略網(wǎng)絡(luò),使其不斷逼近或模仿新策略網(wǎng)絡(luò)中的行為選擇。SIL算法的損失函數(shù)計算公式如下:
[LSILvalue=12(R-Vθ(s))+2] (9)
[LSILpolicy=-logπθ(as)(R-Vθ(s))+] (10)
[LSIL=Es,a,R∈DLSILpolicy+βSILLSILvalue] (11)
式中:[LSILvalue]為對應(yīng)的價值損失函數(shù);[R]為累計獎勵值;[Vθ(s)]代表對應(yīng)狀態(tài)[s]的價值函數(shù);[(?)+]表示為[max(?,0)],以此鼓勵智能體模仿自己的決定,只有當這些決定所獲得的回報比預(yù)期更大時才選擇更新[LSILvalue];[LSILpolicy]為SIL算法的策略損失函數(shù);[πθ(as)]是根據(jù)參數(shù)[θ]的策略函數(shù)在狀態(tài)[s]下選取動作[a]的概率估計值;[D]代表經(jīng)驗池;[βSIL]為價值損失函數(shù)對應(yīng)的超參數(shù)。
1.4" 近端策略優(yōu)化算法
深度強化學(xué)習(xí)算法分為值函數(shù)算法和策略梯度算法[22]。近端策略優(yōu)化算法(Proximal Policy Optimization Algorithm, PPO)屬于策略梯度算法的一種,其原理是將策略參數(shù)化,通過參數(shù)化的線性函數(shù)或神經(jīng)網(wǎng)絡(luò)表示策略[23]。
PPO算法的核心之一是重要性采樣,它的主要目的是評估新舊策略之間的差異程度,通過計算比值來衡量差異大小。重要性采樣公式如下:
[r(θ)=πθ(as)πθold(as)] (12)
式中:[θ]為策略參數(shù);[πθold(as)]表示舊策略;[πθ(as)]表示新策略。
PPO算法的另一個核心是梯度裁剪,其策略損失函數(shù)表達式如下:
[LCLIP(θ)=E[min(r(θ))A,CLIP(r(θ),1-ε,1+ε)A]] (13)
[A=Q(s,a)-V(s,a)] (14)
式中:[r(θ)]為重要性采樣比;[CLIP]為裁剪函數(shù);[ε]為超參數(shù);[A]為優(yōu)勢函數(shù);[Q(s,a)]代表在狀態(tài)[s]下采取動作[a]后產(chǎn)生的累計獎勵值;[V(s,a)]為狀態(tài)價值估計值。
PPO算法的策略參數(shù)更新公式為:
[θ←argmaxθ(E[LCLIP(θ)])] (15)
2" 結(jié)合ICM與自模仿學(xué)習(xí)的近端策略優(yōu)化算法
本文提出了一種結(jié)合好奇心與自模仿學(xué)習(xí)的近端策略優(yōu)化算法,即PPO?CI算法,以解決POMDP探索任務(wù)。首先通過ICM與PPO算法結(jié)合鼓勵智能體的探索行為,并將探索經(jīng)驗數(shù)據(jù)存入優(yōu)先經(jīng)驗池;然后通過優(yōu)先經(jīng)驗回放選取好的樣本數(shù)據(jù),SIL算法模仿好的樣本軌跡,同時更新一個新的策略網(wǎng)絡(luò),用于指導(dǎo)智能體行為選擇,最終使得智能體完成探索任務(wù)。
本文采用強化學(xué)習(xí)與ICM算法結(jié)合的工作機制,訓(xùn)練框架如圖2所示。
結(jié)合計算所得的內(nèi)在獎勵與環(huán)境反饋的外在獎勵指引智能體進行探索任務(wù),其總獎勵計算公式如下:
[rt=mrit+ret] (16)
式中:[rt]為時刻[t]獲得的總獎勵值;[m]為內(nèi)在獎勵對應(yīng)權(quán)重系數(shù);[rit]為經(jīng)過ICM動力學(xué)模型計算所得的內(nèi)在獎勵值;[ret]為與環(huán)境互動所獲得的外在獎勵值,在稀疏獎勵任務(wù)中大部分情況為0。
PPO?CI算法分為兩個訓(xùn)練模塊,即PPO?ICM算法模塊與SIL算法模塊。其中涉及到的PPO與ICM結(jié)合算法的訓(xùn)練損失函數(shù)公式如下:
[LCLIP+VF+St(θ)=Et[LCLIPt(θ)]-c1LVFt(θ)+c2S(st)] (17)
[LVFt(θ)=(Vθ(st)-Vtargt)2] (18)
[LICM=LForward(?(st+1),?(st+1))+LInverse(at,at)] (19)
[LPPO+ICM=LCLIP+VF+St(θ)+LICM] (20)
式中:[LCLIP+VF+St(θ)]為PPO算法的損失函數(shù);[LCLIPt(θ)]為PPO算法的策略梯度的損失;[LVFt(θ)]為PPO算法的價值函數(shù)的損失;[S(st)]為交叉熵的損失;[c1]和[c2]為其對應(yīng)系數(shù);[Vθ(st)]為基于狀態(tài)[st]的預(yù)測價值函數(shù)值;[Vtargt]為目標網(wǎng)絡(luò)的value值;[LForward(?(st+1),?(st+1))]為ICM算法的前向模型損失值;[LInverse(at,at)]為其逆向模型的損失值。
PPO?CI算法的具體偽代碼實現(xiàn)過程如下。
1) 初始化網(wǎng)絡(luò)參數(shù)、算法的超參數(shù)。
2) 初始化普通經(jīng)驗池[D]與優(yōu)先經(jīng)驗池[D']。
3) 將當前時間步的狀態(tài)信息[st]輸入到設(shè)計的基于Actor?Critic框架的網(wǎng)絡(luò)模型,獲取各項動作及其概率分布;依概率選擇動作[at],并將動作反饋給環(huán)境,獲取下一狀態(tài)信息[donet]、當前外在獎勵值[ret]與完成情況[donet]。
4) 將步驟3)所獲取的數(shù)據(jù)[(st,at,st+1)]輸入至ICM算法模型,計算預(yù)測狀態(tài)[s't+1]與預(yù)測動作[at],通過評估[st+1]與[s't+1]的差異獲取內(nèi)在獎勵值[rit],并與環(huán)境反饋的外在獎勵[ret]結(jié)合,獲得總獎勵值[rt];同時通過評估[st+1]與[s't+1]的差異、[at]與實際動作[at]的差異計算出ICM算法的損失函數(shù)值,然后將數(shù)據(jù)[(st,at,rt,donet)]存入普通經(jīng)驗池[D]與優(yōu)先經(jīng)驗池[D']。在優(yōu)先經(jīng)驗池[D']中,根據(jù)計算出的誤差為數(shù)據(jù)賦予不同的優(yōu)先級,供后續(xù)訓(xùn)練調(diào)用。
5) 從普通經(jīng)驗池[D]中抽取batch_size大小的數(shù)據(jù)樣本,然后將這些樣本分成多個小批量(minibatch),使用每個小批量的數(shù)據(jù)來計算PPO?ICM算法的損失函數(shù),并更新策略網(wǎng)絡(luò)的參數(shù)。
6) 從優(yōu)先經(jīng)驗池[D']抽取batch_size大小的樣本數(shù)據(jù),使用SIL算法對高質(zhì)量的軌跡序列進行模仿,并提取出對應(yīng)的狀態(tài)動作對用于訓(xùn)練一個新的策略網(wǎng)絡(luò);同時更新樣本優(yōu)先級,采用訓(xùn)練好的新策略網(wǎng)絡(luò)來進行策略改進。
7) 不斷重復(fù)步驟3)~步驟6)直至算法收斂。
3" 實驗設(shè)計
3.1" 實驗環(huán)境
本文采用文獻[24]中由Open AI提出的Gym?Minigrid網(wǎng)格環(huán)境對所提出的PPO?CI算法表現(xiàn)進行測試與評估。Minigrid環(huán)境是基于回合(episode)產(chǎn)生變化的環(huán)境,該環(huán)境每回合開始時,智能體在某一區(qū)域初始位置與朝向,在探索時僅能獲取局部視野信息,并且無法感知墻壁后方與門另一側(cè)信息,需要根據(jù)僅掌握的部分信息完成探索任務(wù)。本文基于Minigrid已注冊的環(huán)境進行改動,設(shè)計了四種不同探索難度的地圖環(huán)境,旨在驗證PPO?CI算法面臨各類基于回合變化環(huán)境的性能與表現(xiàn)。
圖3a)為改進的環(huán)境MultiRoom?N6S6,每一回合地圖上隨機生成6個大小隨機的房間,且各房間門的顏色隨機,智能體在最左下方位置的房間內(nèi)的隨機位置出現(xiàn),該地圖中智能體需要學(xué)會開門動作并且需要連續(xù)通過多個房間找到最右上方房間的出口。
圖3b)為改進的環(huán)境Empty?15×15?v1,在這個環(huán)境中,智能體起始點位于最左側(cè)房間某個隨機位置,而目標出口在最右側(cè)房間內(nèi)的隨機位置。不同的挑戰(zhàn)在于:該環(huán)境擴大了房間內(nèi)的空間,并且三扇門的位置隨機,這為智能體進行探索帶來了麻煩。圖3c)為改進的環(huán)境FourRooms?v1,該環(huán)境擴大了房間的大小,且探索任務(wù)不再僅限于從左側(cè)向右側(cè)進行探索;另外,環(huán)境中設(shè)置了相同顏色的門,這會一定程度上影響智能體對于自身位置的判斷。對于該環(huán)境,智能體隨機出現(xiàn)在左上側(cè)房間的某個位置,目標點隨即出現(xiàn)在右下側(cè)房間的某個位置,智能體需要在位置判斷受影響的情況下完成任務(wù)。圖3d)為改進的環(huán)境LockedRoom?v1,該環(huán)境設(shè)置了一扇帶鎖的門,智能體需要打開另一扇未上鎖的門,去到房間內(nèi)拿到鑰匙,然后去開另一側(cè)帶鎖的門,最終找到出口。該探索任務(wù)難度在于:智能體需要學(xué)會拾取鑰匙的動作,并學(xué)會持有鑰匙在鎖住的門前學(xué)會激活門的動作。
3.2" 獎勵設(shè)計
獎勵是智能體與環(huán)境每回合交互所得到的回報。本文設(shè)計了一種隨步數(shù)變化而變化的獎勵函數(shù),其目的是引導(dǎo)智能體在每個episode內(nèi)盡可能地用更少的步數(shù)獲取更高的獎勵,從而避免智能體陷入局部最優(yōu)解并停止探索任務(wù)的情況。
具體獎勵函數(shù)如下:
[reward=1-0.9astepamaxstep," " astep≤amaxstep0," " " " " " " " " " " " " " "astepgt;amaxstep] (21)
3.3" 模型結(jié)構(gòu)與參數(shù)
本文為處理環(huán)境中多維復(fù)雜的特征信息,設(shè)計一種基于Actor?Critic架構(gòu)的網(wǎng)絡(luò)模型,具體結(jié)構(gòu)如圖4所示。
由圖4可知:從環(huán)境中所獲取的狀態(tài)信息首先經(jīng)歷兩層卷積網(wǎng)絡(luò)層,將輸入的狀態(tài)數(shù)據(jù)信息抽象成更高層次的特征表示;然后將卷積層的輸出結(jié)果通過展平層,將多維特征數(shù)據(jù)展開成一維向量;接著輸入到全連接層捕捉特征之間的復(fù)雜關(guān)系,并對特征進行組合;最后將組合特征分別輸入Actor網(wǎng)絡(luò)的全連接層,獲取各項動作及其概率分布,用于指導(dǎo)智能體的行為決策,并輸入到Critic網(wǎng)絡(luò)的全連接層評估當前狀態(tài)的價值。本文實驗所采用的PPO?CI算法涉及到PPO?CLIP算法模塊、ICM算法模塊以及自模仿學(xué)習(xí)算法模塊的各項參數(shù),具體的超參數(shù)如表1所示。
為加快模型的收斂速度,以及訓(xùn)練后期對細化參數(shù)的調(diào)整,本文采用線性退火算法來提高模型在更接近最優(yōu)解時的精度。學(xué)習(xí)率的線性退火算法公式為:
[Learning_rate=Learning_rateinitial·1-current_steptotal_steps] (22)
式中:[Learning_rate]表示當前的學(xué)習(xí)率;[Learning_rateinitial]表示初始設(shè)置的學(xué)習(xí)率;[current_step]表示當前與環(huán)境交互的步數(shù);[total_steps]表示訓(xùn)練的總步數(shù)。
3.4" 實驗結(jié)果與分析
實驗采用的操作系統(tǒng)為Ubuntu 18.04,Python版本為3.9,基于Torch 1.13搭建深度強化學(xué)習(xí)框架。實驗設(shè)備選用含有2張內(nèi)存大小為8 GB的GTX 1080顯卡的服務(wù)器。為測試與評估所提出的PPO?CI算法在POMDP任務(wù)中的性能表現(xiàn),設(shè)置了消融實驗,將提出的PPO?CI算法與PPO算法、PPO?ICM算法、PPO?SIL算法進行比較。
各算法在MultiRoom?N6S6環(huán)境下的訓(xùn)練獎勵值變化如圖5a)所示,橫坐標的frames表示智能體與環(huán)境交互的總步數(shù),縱坐標表示智能體與各不同隨機種子環(huán)境交互產(chǎn)生的平均獎勵值信息。在該環(huán)境中,4種基于PPO算法的改進算法均能完成任務(wù)。四類完成探索任務(wù)的算法中,PPO?CI算法以最快的速度達到收斂狀態(tài),因為PPO?CI算法通過綜合利用ICM的自主探索和SIL的軌跡模仿,提高了有效樣本的利用率。通過綜合利用這些樣本,PPO?CI算法可以更好地優(yōu)化智能體的策略,提高學(xué)習(xí)效果,這一優(yōu)勢在Empty?15×15?v1環(huán)境的探索中更加突出。Empty?15×15?v1環(huán)境中設(shè)置了三面墻來阻礙智能體的探索,并且墻上門位置的變化幅度較大,使得環(huán)境具有較強的隨機性。如圖5c)所示,僅在好奇心驅(qū)使下進行探索的PPO?ICM算法與PPO?CI算法能夠完成該探索任務(wù),這說明僅憑環(huán)境反饋的獎勵信息很難進行下一步探索。在FourRooms?v1環(huán)境中,智能體受限于自身的位置判斷,且門的顏色也混淆了智能體的判斷。PPO?CI算法在該環(huán)境中仍以最快的速度達到收斂,在好奇心的推動下,通過有效利用優(yōu)先經(jīng)驗池的軌跡回放進行高效地學(xué)習(xí),準確地判斷自身位置以及各房間門的位置,并成功找到出口。如圖5d)所示,在設(shè)置了門鎖與鑰匙的LockedRoom?v1環(huán)境中,智能體首先需要找到鑰匙,然后學(xué)會開門動作,最終找到出口。
在這種多任務(wù)環(huán)境中,PPO?CI算法仍表現(xiàn)出高效的學(xué)習(xí)能力與適應(yīng)能力。本文提出的PPO?CI算法綜合利用了ICM和SIL的優(yōu)點,既能夠?qū)χ悄荏w與環(huán)境交互產(chǎn)生的經(jīng)驗數(shù)據(jù)進行有效利用,又能夠在好奇心的驅(qū)動下進行自主探索,從而在探索能力和學(xué)習(xí)效果方面取得更好的平衡。
在驗證了PPO?CI算法的快速收斂性后,進一步對算法收斂后的穩(wěn)定性進行分析。本文選取各算法在收斂之后的最后30個episode的訓(xùn)練情況作為參考,從具體步數(shù)來探究算法收斂后的穩(wěn)定性。各類算法在四類環(huán)境中的訓(xùn)練情況如圖6所示。
由圖6中使用PPO?CI算法訓(xùn)練的結(jié)果顯示,其使用步數(shù)的波動幅度較小且所使用的步數(shù)也是較少的。但是由于各個環(huán)境是基于回合產(chǎn)生改變,導(dǎo)致各回合初始位置離目標點的距離不確定,故僅平均步數(shù)并不能客觀地體現(xiàn)出各算法的穩(wěn)定性,故還選取了30個episode的步數(shù)標準差作為評估對象。表2中數(shù)據(jù)前項為平均步數(shù),后項為標準差。綜合數(shù)據(jù)體現(xiàn)出PPO?CI算法在快速收斂的同時也具有很強的穩(wěn)定性,每回合都能采取更優(yōu)的探索路徑完成探索任務(wù)。
4" 結(jié)" 論
本文為解決POMDP探索任務(wù)中的稀疏獎勵與信息缺失等問題,提出一種融合好奇心與自模仿學(xué)習(xí)的深度強化學(xué)習(xí)算法,利用好奇心鼓勵智能體探索未知場景,并將產(chǎn)生的探索數(shù)據(jù)存入設(shè)計的優(yōu)先經(jīng)驗池,然后利用自模仿學(xué)習(xí)從優(yōu)先經(jīng)驗池中選取具有優(yōu)秀探索表現(xiàn)的歷史經(jīng)驗數(shù)據(jù)進行學(xué)習(xí)與更新策略。
為驗證所提出的PPO?CI算法在POMDP任務(wù)的表現(xiàn),設(shè)計了四項不同難度的Minigrid環(huán)境的探索任務(wù)。經(jīng)實驗驗證,該算法平衡了探索過度與利用不足的問題,同時具有較快達到收斂效果的優(yōu)勢,較已有的ICM、SIL等算法速度更快。并且該算法具有更強的泛化性,對基于回合變化的環(huán)境仍有著很強的適應(yīng)能力,能夠有效解決多種不同難度的POMDP探索任務(wù)。
本文為解決部分可觀測環(huán)境探索中的稀疏獎勵、信息缺失等問題提供了一種有效的方法。未來的研究將致力于進一步優(yōu)化好奇心與探索算法的融合,比如在更為復(fù)雜或具有更多動態(tài)變化因素的環(huán)境中對PPO?CI算法進行測試與改進,并且嘗試使用其他的好奇心模型或者與其他的探索算法相結(jié)合來進一步提升算法的性能。
注:本文通訊作者為臧兆祥。
參考文獻
[1] JADERBERG M, CZARNECKI W M, DUNNING I, et al. Human?level performance in 3D multiplayer games with population?based reinforcement learning [J]. Science, 2019, 364: 859?865.
[2] YE D, LIU Z, SUN M, et al. Mastering complex control in MOBA games with deep reinforcement learning [J]. Proceeding of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 6672?6679.
[3] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi?agent reinforcement learning [J]. Nature, 2019, 575: 350?354.
[4] CARLUCHO I, PAULA D M, WANG S, et al. Adaptive low?level control of autonomous underwater vehicles using deep reinforcement learning [J]. Robotics and autonomous system, 2018, 107: 71?86.
[5] CARLUCHO I, PAULA D M, ACOSTA G G. An adaptive deep reinforcement learning approach for MIMO PID control of mobile robots [J]. ISA transactions, 2020, 102: 280?294.
[6] WANG D, DENG H. Multirobot coordination with deep reinforcement learning in complex environments [J]. Expert systems with applications, 2021, 180: 115128.
[7] XIONG H, MA T, ZHANG L, et al. Comparison of end?to?end and hybrid deep reinforcement learning strategies for controlling cable?driven parallel robots [J]. Neurocomputing, 2020, 377: 73?84.
[8] JIN Y, LIU Q, SHEN L, et al. Deep deterministic policy gradient algorithm based on convolutional block attention for autonomous driving [J]. Symmetry, 2021, 13: 1061.
[9] YANG T K, LI L K, NGIAP T K, et al. Deep Q?network implementation for simulated autonomous vehicle control [J]. IET intelligent transport systems, 2021, 15: 875?885.
[10] LI J X, YAO L, XU X, et al. Deep reinforcement learning for pedestrian collision avoidance and human?machine cooperative driving [J]. Information sciences, 2020, 532: 110?124.
[11] 崔文華,李東,唐宇波,等.基于深度強化學(xué)習(xí)的兵棋推演決策方法框架[J].國防科技,2020,41(2):113?121.
[12] ESPEHOLT L, SOYER H, MUNOS R, et al. IMPALA: scalable distributed deep?RL with importance weighted actor?learner architectures [C]// Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018: 1407?1416.
[13] SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay [C]// International Conference on Learning Representations. Vancouver, Canada: IMLS, 2016: 1312?1320.
[14] HENDERSON M, THOMSON B, YOUNG S. Word?based dialog state tracking with recurrent neural networks [C]// Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL). Philadelphia, PA, USA: ACL, 2014: 292?299.
[15] OH J, GUO Y, SINGH S, et al. Self?imitation learning [C]// Proceedings of the International Conference on Machine Learning. Stockholm, Sweden: IMLS, 2018: 3878?3887.
[16] MENG L, GORBET R, KULI? D. Memory?based deep reinforcement learning for POMDPs [C]// IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2021: 5619?5626.
[17] HAUSKNECHT M, STONE P. Deep recurrent Q?learning for partially observable MDPs [C]// 2015 Association for the Advancement of Artificial Intelligence Fall Symposium Series. Palo Alto, California, USA: AAAI, 2015: 1?8.
[18] OUDEYER P Y, KAPLAN F. How can we define intrinsic motivation [C]// Proceedings of eighth International Conference on Epigenetic Robotics: Modeling Cognitive Development in Robotic Systems. Lund: Brighton, 2008: 93?101.
[19] PATHAK D, AGRAWAL P, EFROS A A, et al. Curiosity?driven exploration by self?supervised prediction [C]// Proceedings of the 2017 International Conference on Machine Learning. San Diego, CA: JMLR, 2017: 2778?2787.
[20] BURDA Y, EDWARDS H,STORKEY A J, et al. Exploration by random network distillation [C]// Proceeding of the 7th International Conference on Learning Representations. New Orleans, USA: ICLR, 2019: 1?17.
[21] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning [J]. Nature, 2013, 518: 529?533.
[22] 張峻偉,呂帥,張正昊,等.基于樣本效率優(yōu)化的深度強化學(xué)習(xí)方法綜述[J].軟件學(xué)報,2022,33(11):4217?4238.
[23] 劉國名,李彩虹,李永迪,等.基于改進PPO算法的機器人局部路徑規(guī)劃[J].計算機工程,2023,49(2):119?126.
[24] CHEVALIER?BOISVERT M, WILLEMS L, PAL S. widesp?read attention and research [EB/OL]. [2023?01?12]. https://github.com/maximec/gym?minigrid, 2018.