陳建平,何超,劉全,吳宏杰,胡伏原,傅啟明
?
增強(qiáng)型深度確定策略梯度算法
陳建平1,2,3,4,何超1,2,3,劉全5,吳宏杰1,2,3,4,胡伏原1,2,3,4,傅啟明1,2,3,4
(1. 蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009;2. 蘇州科技大學(xué)江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009; 3. 蘇州科技大學(xué)蘇州市移動(dòng)網(wǎng)絡(luò)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009; 4. 蘇州科技大學(xué)蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009;5. 蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
針對(duì)深度確定策略梯度算法收斂速率較慢的問(wèn)題,提出了一種增強(qiáng)型深度確定策略梯度(E-DDPG)算法。該算法在深度確定策略梯度算法的基礎(chǔ)上,重新構(gòu)建兩個(gè)新的樣本池——多樣性樣本池和高誤差樣本池。在算法執(zhí)行過(guò)程中,訓(xùn)練樣本分別從多樣性樣本池和高誤差樣本池按比例選取,以兼顧樣本多樣性以及樣本價(jià)值信息,提高樣本的利用效率和算法的收斂性能。此外,進(jìn)一步從理論上證明了利用自模擬度量方法對(duì)樣本進(jìn)行相似性度量的合理性,建立值函數(shù)與樣本相似性之間的關(guān)系。將E-DDPG算法以及DDPG算法用于經(jīng)典的Pendulum問(wèn)題和MountainCar問(wèn)題,實(shí)驗(yàn)結(jié)果表明,E-DDPG具有更好的收斂穩(wěn)定性,同時(shí)具有更快的收斂速率。
深度強(qiáng)化學(xué)習(xí);樣本排序;自模擬度量;時(shí)間差分誤差
強(qiáng)化學(xué)習(xí)的基本思想是通過(guò)最大化智能體(agent)從環(huán)境中獲得的累計(jì)獎(jiǎng)賞值,以學(xué)習(xí)完成目標(biāo)的最優(yōu)策略[1]。依據(jù)策略表示方法和求解的不同,可以將強(qiáng)化學(xué)習(xí)方法分為3類:“評(píng)論家”算法,該算法利用值函數(shù)對(duì)策略進(jìn)行評(píng)估,最終利用最優(yōu)值函數(shù)求解最優(yōu)策略;“行動(dòng)者”算法,該算法利用類似啟發(fā)式搜索的方法從策略空間中找出最優(yōu)策略;“行動(dòng)者—評(píng)論家”算法,行動(dòng)者部分用于動(dòng)作的選取,評(píng)論家部分用于評(píng)估動(dòng)作的好壞,利用值函數(shù)信息指導(dǎo)策略的搜索[2]。然而對(duì)于上述任意一類算法,在學(xué)習(xí)過(guò)程中,都需要人工設(shè)定狀態(tài)表示方法,而通過(guò)深度學(xué)習(xí)方法,可以實(shí)現(xiàn)狀態(tài)特征的自動(dòng)學(xué)習(xí),以實(shí)現(xiàn)“端到端”的任務(wù)學(xué)習(xí)。目前,深度學(xué)習(xí)作為在機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn),已經(jīng)在圖像分析、語(yǔ)音識(shí)別、視頻分類、自然語(yǔ)言處理等領(lǐng)域獲得令人矚目的成就。深度學(xué)習(xí)的基本思想是通過(guò)多層的網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換,組合低層特征,形成抽象的、易于區(qū)分的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[3]。深度學(xué)習(xí)模型通常由多層的非線性運(yùn)算單元組合而成,將較低層的輸出作為更高一層的輸入,通過(guò)這種方式自動(dòng)地從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)抽象的特征表示[4-5]。
谷歌的DeepMind團(tuán)隊(duì)將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),提出深度強(qiáng)化學(xué)習(xí)方法,并將深度強(qiáng)化學(xué)習(xí)應(yīng)用于圍棋問(wèn)題。2016年,Alpha Go[6]在人機(jī)圍棋比賽中以4:1戰(zhàn)勝圍棋大師李世石,而新版的Alpha Zero[7]可以不需要任何歷史棋譜知識(shí),不借助任何人類先驗(yàn)知識(shí),僅利用深度強(qiáng)化學(xué)習(xí)進(jìn)行自我對(duì)弈,最終能以100:0的戰(zhàn)績(jī)完勝Alpha Go。目前,深度強(qiáng)化學(xué)習(xí)已經(jīng)成為人工智能領(lǐng)域的研究熱點(diǎn)。Mnih等[8-9]將卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的Q學(xué)習(xí)[10]算法相結(jié)合,提出了深度Q網(wǎng)絡(luò)(DQN, deep Q-network)模型。DQN將未被處理過(guò)的像素點(diǎn)(原始圖像)作為輸入,通過(guò)樣本池存儲(chǔ)歷史經(jīng)驗(yàn)樣本,同時(shí)利用經(jīng)驗(yàn)回放打破樣本間的聯(lián)系,以避免網(wǎng)絡(luò)參數(shù)的震蕩。但是DQN只能解決離散的、低維的動(dòng)作空間問(wèn)題,將DQN應(yīng)用到連續(xù)動(dòng)作領(lǐng)域最簡(jiǎn)單的做法是將連續(xù)動(dòng)作離散化,但是這會(huì)導(dǎo)致離散動(dòng)作的數(shù)量隨動(dòng)作維度的增加而呈指數(shù)型增長(zhǎng),同時(shí)對(duì)連續(xù)動(dòng)作進(jìn)行簡(jiǎn)單的離散化會(huì)忽略動(dòng)作域的結(jié)構(gòu),然而在很多情況下,動(dòng)作域的結(jié)構(gòu)對(duì)于問(wèn)題的求解是非常重要的,因此,目前基于DQN算法提出了很多關(guān)于DQN的變體。Hasselt等[11]在雙重Q學(xué)習(xí)算法[12]的基礎(chǔ)上提出了深度雙重Q網(wǎng)絡(luò)(DDQN, deep double Q-network)算法。Schaul等[13]在DDQN的基礎(chǔ)上提出了一種基于比例優(yōu)先級(jí)采樣的深度雙Q網(wǎng)絡(luò)(double deep Q-network with proportional prioritization)等。然而,這些改進(jìn)的算法都不能夠很好地解決連續(xù)動(dòng)作空間問(wèn)題。在連續(xù)動(dòng)作空間中,策略梯度是常用的方法,它通過(guò)不斷計(jì)算策略期望總獎(jiǎng)賞關(guān)于策略參數(shù)的梯度來(lái)更新策略參數(shù),最終收斂于最優(yōu)策略[14]。因此,在解決深度強(qiáng)化學(xué)習(xí)問(wèn)題時(shí),可以采用深度神經(jīng)網(wǎng)絡(luò)表示策略,并利用策略梯度方法求解最優(yōu)參數(shù)。此外,在求解深度強(qiáng)化學(xué)習(xí)問(wèn)題時(shí),基于策略梯度的算法能夠直接優(yōu)化策略的期望總獎(jiǎng)賞,并以端對(duì)端的方式直接在策略空間中搜索最優(yōu)策略。因此,與DQN及其改進(jìn)算法相比,基于策略梯度的深度強(qiáng)化學(xué)習(xí)方法適用范圍更廣,策略優(yōu)化的效果也更好。Lillicrap等[15]將DPG(deterministic policy gradient)算法[16]與DQN相結(jié)合,提出了DDPG(deep deterministic policy gradient)算法。DDPG可用于解決連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)問(wèn)題。實(shí)驗(yàn)表明,DDPG不但在一系列連續(xù)動(dòng)作空間的任務(wù)中表現(xiàn)穩(wěn)定,而且求得最優(yōu)解所需要的時(shí)間步也遠(yuǎn)低于DQN,但是DDPG需要大量的樣本數(shù)據(jù),且算法的收斂速度也有待提高。
本文在DDPG算法的基礎(chǔ)上提出了增強(qiáng)型深度確定策略梯度(E-DDPG, enhanced deep deterministic policy gradient)算法。針對(duì)DDPG算法收斂速度慢的問(wèn)題,E-DDPG算法在原始樣本池的基礎(chǔ)上構(gòu)建了兩個(gè)樣本池——高誤差樣本池和多樣性樣本池。高誤差樣本池將TD(temporal-difference)error作為啟發(fā)式信息對(duì)樣本進(jìn)行排序,以提高誤差較大的樣本的選取概率。同時(shí),多樣性樣本池利用自模擬度量方法度量樣本間的距離,在原始樣本池的基礎(chǔ)上,選擇低相似樣本,以提高樣本池中樣本的多樣性,提高算法的執(zhí)行效率。在算法學(xué)習(xí)過(guò)程中,訓(xùn)練樣本將分別從高誤差樣本池和多樣性樣本池按比例選取,以兼顧樣本多樣性以及樣本價(jià)值信息,提高樣本的利用效率和算法的收斂性能。實(shí)驗(yàn)結(jié)果表明,與DDPG算法相比,E-DDPG算法具有更快的收斂速度以及更好的收斂穩(wěn)定性。
式(1)也被稱作Bellman公式。
式(2)被稱作最優(yōu)Bellman公式。
在隨機(jī)策略中,策略梯度取決于狀態(tài)和動(dòng)作,而在確定策略中,策略梯度僅取決于狀態(tài)。因此,與隨機(jī)策略梯度算法相比,確定策略梯度算法收斂需要的樣本相對(duì)較少。
其中,有
值得注意的是,確定策略梯度算法缺少對(duì)環(huán)境的探索,而DDPG算法通過(guò)引入隨機(jī)噪聲來(lái)完成策略探索。通過(guò)添加隨機(jī)噪聲,使動(dòng)作的選擇具有一定的隨機(jī)性,以完成一定程度的策略探索,具體如式(6)所示。
為了度量MDP中狀態(tài)的關(guān)系,自模擬關(guān)系被Givan等[17]引入MDP中。簡(jiǎn)而言之,如果兩個(gè)狀態(tài)滿足自模擬關(guān)系,那么這兩個(gè)狀態(tài)就共享相同的最優(yōu)值函數(shù)以及最優(yōu)動(dòng)作。
從定義1可以得出,任意兩個(gè)狀態(tài)要么滿足自模擬關(guān)系,要么不滿足自模擬關(guān)系。這種度量方法過(guò)于苛刻,且限制其使用的范圍。Ferns等[18]提出了一種可用于衡量?jī)蓚€(gè)狀態(tài)之間遠(yuǎn)近關(guān)系的自模擬度量方法(bisimulation metric)。
計(jì)算兩個(gè)狀態(tài)距離的算法如算法1所示。
算法1 狀態(tài)之間距離度量算法
5) end for
7) end for
同時(shí),為了保證選取樣本的多樣性,引入自模擬度量方法。從原始樣本池0和高誤差樣本池2中隨機(jī)選取的樣本,可能存在很多近似樣本,甚至是重復(fù)樣本,這會(huì)降低算法的執(zhí)行效率。因此,考慮間隔個(gè)情節(jié),利用算法1計(jì)算出原始樣本池0中樣本之間的距離,將低相似性樣本放入多樣性樣本池1,以保證所選擇樣本的多樣性。此后,算法1將分別從多樣性樣本池1和高誤差樣本池2按一定比例選取樣本,進(jìn)行學(xué)習(xí),同時(shí)兼顧樣本多樣性以及高價(jià)值樣本信息,進(jìn)一步提高算法的執(zhí)行效率。
根據(jù)3.1節(jié)和3.2節(jié)的介紹,下面給出詳細(xì)的E-DDPG算法的流程,如算法2所示。
算法2 E-DDPG算法
2) for= 1 todo
4) 利用自模擬度量方法,將低相似性樣本放入多樣性樣本池1
5) 獲得初始觀察狀態(tài)1
6) for= 1 todo
14) else
21) end if
22) end if
23) end if
24) end for
25) end if
26) end for
證畢。
因此,利用自模擬度量方法計(jì)算樣本間的距離,利用該距離確定樣本間的相似性可以進(jìn)一步反映樣本在值函數(shù)空間中的相似性。從參數(shù)更新的角度而言,在算法學(xué)習(xí)過(guò)程中,高相似性的樣本具有較低的價(jià)值,而低相似性的樣本將提高算法的更新效率,進(jìn)而加快算法收斂速度。
在強(qiáng)化學(xué)習(xí)中,從歷史樣本池中進(jìn)行均勻采樣,可能會(huì)導(dǎo)致較多的更新集中在某一些低價(jià)值的樣本上,如果將更新集中在某些特殊的樣本上,則會(huì)使算法的更新更加高效。在均勻采樣訓(xùn)練的過(guò)程中,會(huì)浪費(fèi)大量時(shí)間和計(jì)算資源進(jìn)行很多無(wú)用的更新,隨著學(xué)習(xí)的不斷進(jìn)行,有用的更新區(qū)域不斷增加,但是與將更新集中在高價(jià)值的樣本上相比,學(xué)習(xí)的效率和效果差了很多。在連續(xù)狀態(tài)空間中,這種非集中式搜索的效率將會(huì)非常低下。
本文以TD error作為啟發(fā)式信息,將訓(xùn)練中高價(jià)值的樣本挑選出來(lái)構(gòu)建高誤差樣本池,在接下來(lái)的訓(xùn)練中,通過(guò)提高這些高價(jià)值樣本的選取概率,進(jìn)而更快地獲得有用的更新區(qū)域。由于關(guān)于TD error的閾值是人為設(shè)置的,若僅僅從高誤差樣本池2中選取訓(xùn)練樣本,可能導(dǎo)致錯(cuò)過(guò)部分高價(jià)值樣本,因此,算法同時(shí)也從多樣性樣本池中選擇一定比例的樣本。實(shí)驗(yàn)結(jié)果表明,該方法可以提高算法的收斂速度。
1)實(shí)驗(yàn)描述
為了驗(yàn)證算法的有效性,本文將DDPG算法和E-DDPG算法用于經(jīng)典Pendulum問(wèn)題。圖1給出了Pendulum問(wèn)題的示意。
圖1 Pendulum問(wèn)題的示意
一個(gè)倒立的鐘擺,擺桿繞中間轉(zhuǎn)軸隨機(jī)擺動(dòng)。agent的任務(wù)是學(xué)習(xí)到一個(gè)策略,使擺桿保持豎直。本文實(shí)驗(yàn)環(huán)境是OpenAI gym,狀態(tài)是三維的,其中,二維表示鐘擺的位置,一維表示鐘擺的速度。狀態(tài)可以表示為
動(dòng)作是一維的,表示對(duì)鐘擺的作用力,取值范圍為[?2,2]。動(dòng)作可以表示為
獎(jiǎng)賞函數(shù)可以表示為
其中,等于式(9)的計(jì)算值的概率是0.1,等于0的概率是0.9。
2) 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)運(yùn)行硬件環(huán)境為Inter(R) Xeon(R) CPU E5-2660處理器、NVIDIA GeForce GTX 1060顯卡、16 GB內(nèi)存;軟件環(huán)境為Windows 10操作系統(tǒng)、python 3.5、TensorFlow_GPU-1.4.0。
在該實(shí)驗(yàn)中,DDPG算法收斂需要8.1 h,未引入自模擬度量的E-DDPG算法收斂需要5.2 h,而引入自模擬度量的E-DDPG算法收斂?jī)H需要2.4 h。
3) 實(shí)驗(yàn)分析
DDPG算法、E-DDPG算法應(yīng)用于經(jīng)典的Pendulum問(wèn)題上的性能比較(在實(shí)驗(yàn)過(guò)程中,每個(gè)算法都獨(dú)立執(zhí)行3 000個(gè)情節(jié))如圖2所示,各種算法在不同情節(jié)下,目標(biāo)任務(wù)達(dá)到終止?fàn)顟B(tài)時(shí)的總回報(bào)值(回報(bào)值是通過(guò)目標(biāo)任務(wù)從開(kāi)始狀態(tài)達(dá)到終止?fàn)顟B(tài)時(shí)總的獎(jiǎng)賞值)。其中,橫坐標(biāo)是情節(jié)數(shù),縱坐標(biāo)是算法執(zhí)行10次的平均回報(bào)值。從圖2可以看出,E-DDPG算法在300個(gè)情節(jié)時(shí)基本收斂。DDPG算法雖然在400個(gè)情節(jié)時(shí)取得較高的回報(bào)值,但是還在震蕩并沒(méi)有收斂,直到1 200個(gè)情節(jié)才收斂。因?yàn)镋-DDPG算法引入了TD error,加大了對(duì)具有更高價(jià)值的樣本的選取概率,同時(shí)因?yàn)椴捎米阅M度量方法更新多樣性樣本池1,使選取的訓(xùn)練樣本多樣性得到保證,從而進(jìn)一步加快算法的收斂速度。此外,從圖2還可以看出,兩種算法在收斂后,E-DDPG算法每個(gè)情節(jié)的回報(bào)值震蕩的幅度比DDPG算法的震蕩幅度更小,這充分說(shuō)明E-DDPG算法的穩(wěn)定性比DDPG算法更好。
圖2 Pendulum問(wèn)題中兩種算法的性能比較
引入自模擬度量E-DDPG算法、未引入自摸E-DDPG算法和DDPG算法進(jìn)行的實(shí)驗(yàn)對(duì)比,結(jié)果如圖3所示,其中,設(shè)置自模擬度量間隔的情節(jié)數(shù)=30。從圖3可以看出,沒(méi)有引入自模擬度量方法的E-DDPG算法在700個(gè)情節(jié)算法才收斂,引入自模擬度量方法的E-DDPG算法在300個(gè)情節(jié)算法就收斂,而DDPG算法在1 200個(gè)情節(jié)才收斂。因?yàn)樽阅M度量方法使訓(xùn)練的樣本具有更好的多樣性,提高了訓(xùn)練的效率,從而加快了訓(xùn)練的速度。
圖3 Pendulum問(wèn)題中E-DDPG算法是否引入自模擬度量方法與DDPG算法的實(shí)驗(yàn)對(duì)比
圖4 Pendulum問(wèn)題中E-DDPG算法不同TD Error和DDPG算法的實(shí)驗(yàn)對(duì)比
圖5 Pendulum問(wèn)題中E-DDPG算法不同樣本選取比例和DDPG算法的實(shí)驗(yàn)對(duì)比
1) 實(shí)驗(yàn)描述
為了驗(yàn)證算法的有效性,本文將DDPG算法和E-DDPG算法用于經(jīng)典的MountainCar問(wèn)題。圖6給出了MountainCar問(wèn)題的示意。
圖6 MountainCar問(wèn)題的示意
曲面表示一個(gè)帶有坡度的路面,小車處在坡底,由于動(dòng)力不足,小車無(wú)法直接加速?zèng)_上坡頂,因此必須通過(guò)前后加速借助慣性到達(dá)坡頂,即圖6中右側(cè)“星”形標(biāo)記的位置。本文實(shí)驗(yàn)的環(huán)境是OpenAI gym,狀態(tài)是二維的,其中,一維表示位置,另一維表示速度,狀態(tài)可以表示為
動(dòng)作是一維的,表示小車的加速度,取值范圍為[?1,1]。動(dòng)作可以表示為
在情節(jié)開(kāi)始時(shí),給定小車一個(gè)隨機(jī)的位置和速度,然后進(jìn)行交互學(xué)習(xí)。當(dāng)小車到達(dá)目標(biāo)位置(圖6中的“星”形位置)或當(dāng)前執(zhí)行的時(shí)間步超過(guò)1 000時(shí),情節(jié)結(jié)束,并開(kāi)始一個(gè)新的情節(jié)。當(dāng)小車到達(dá)目標(biāo)位置時(shí),立即獎(jiǎng)賞是100;其他情況下,小車的立即獎(jiǎng)賞滿足
2)實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)運(yùn)行硬件環(huán)境為Inter(R) Xeon(R) CPU E5-2660處理器、NVIDIA GeForce GTX 1060顯卡、16 GB內(nèi)存;軟件環(huán)境為Windows 10操作系統(tǒng)、python 3.5、TensorFlow_GPU-1.4.0。
在本實(shí)驗(yàn)中,DDPG算法收斂需要7.5 h,未引入自模擬度量的E-DDPG算法收斂需要4.7 h,而引入自模擬度量的E-DDPG算法收斂?jī)H需要1.6 h。
3) 實(shí)驗(yàn)分析
DDPG算法、E-DDPG算法應(yīng)用于經(jīng)典的MountainCar問(wèn)題上的性能比較(在實(shí)驗(yàn)過(guò)程中,每個(gè)算法都獨(dú)立執(zhí)行2 000個(gè)情節(jié))如圖7所示,各個(gè)算法在不同情節(jié)下,目標(biāo)任務(wù)達(dá)到終止?fàn)顟B(tài)時(shí)總的回報(bào)值(回報(bào)值是通過(guò)目標(biāo)任務(wù)從開(kāi)始狀態(tài)達(dá)到終止?fàn)顟B(tài)時(shí)總的獎(jiǎng)賞值)。其中,橫坐標(biāo)是情節(jié)數(shù),縱坐標(biāo)是算法執(zhí)行10次的平均回報(bào)值。從圖7可以看出,E-DDPG算法在120個(gè)情節(jié)基本收斂。DDPG算法雖然在220個(gè)情節(jié)時(shí)取得較高的回報(bào)值,但是還在震蕩并沒(méi)有收斂,直到780個(gè)情節(jié)才收斂。
圖7 MountainCar問(wèn)題中兩種算法的性能比較
E-DDPG算法是否引入自模擬度量方法進(jìn)行的實(shí)驗(yàn)對(duì)比如圖8所示,其中,設(shè)置自模擬度量間隔的情節(jié)數(shù)=30。從圖8可以看出,沒(méi)有引入自模擬度量方法的E-DDPG算法在470個(gè)情節(jié)算法才收斂,引入自模擬度量方法的E-DDPG算法在120個(gè)情節(jié)算法就收斂了,而DDPG算法在780個(gè)情節(jié)才收斂。這是因?yàn)樽阅M度量方法使訓(xùn)練的樣本具有更好的多樣性,提高了訓(xùn)練的效率,從而加快了訓(xùn)練的速度。實(shí)驗(yàn)表明,自模擬度量方法能夠加快算法的收斂速度。
圖8 MountainCar問(wèn)題中E-DDPG算法是否引入自模擬度量方法的實(shí)驗(yàn)比較
圖9 MountainCar問(wèn)題中E-DDPG算法不同TD Error和DDPG算法的實(shí)驗(yàn)比較
圖10 MountainCar問(wèn)題中E-DDPG算法不同樣本選取比例和DDPG算法的實(shí)驗(yàn)比較
本文針對(duì)DDPG算法在大規(guī)模狀態(tài)動(dòng)作空間中存在收斂速度較慢的問(wèn)題,提出了E-DDPG算法。該算法在深度確定策略梯度算法的基礎(chǔ)上,重新構(gòu)建兩個(gè)新的樣本池——多樣性樣本池和高誤差樣本池。其中,多樣性樣本池主要利用自模擬度量方法對(duì)原始樣本池中的樣本相似性進(jìn)行度量,選擇低相似性樣本,并在學(xué)習(xí)過(guò)程中持續(xù)更新;高誤差樣本池主要通過(guò)計(jì)算時(shí)間差分誤差對(duì)所選擇的訓(xùn)練樣本進(jìn)行排序,選擇具有高價(jià)值的高誤差樣本,以提高后續(xù)參數(shù)更新的有效性。將算法應(yīng)用到Pendulum問(wèn)題,從算法性能角度與DDPG算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,E-DDPG算法比DDPG算法收斂速度更快,同時(shí)算法的穩(wěn)定性也更好。針對(duì)TD error閾值和多樣性樣本池與高誤差樣本池訓(xùn)練樣本比例等參數(shù)的人工設(shè)置不同,對(duì)算法性能的影響分別進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,雖然TD error閾值選取和樣本選取比例不同會(huì)導(dǎo)致E-DDPG算法性能不一樣,但是與DDPG算法相比還是有較好的效果。
本文主要以Pendulum問(wèn)題和MountainCar問(wèn)題作為實(shí)驗(yàn)平臺(tái)驗(yàn)證算法性能,從實(shí)驗(yàn)結(jié)果可以看出,算法具有較好的收斂性和穩(wěn)定性。但是E-DDPG算法中TD error的選取和樣本比例的選取都是人工設(shè)置的,且不同的設(shè)置參數(shù)會(huì)對(duì)算法收斂性和穩(wěn)定性產(chǎn)生不同的影響。因此,接下來(lái)的工作是進(jìn)一步分析如何設(shè)置TD error和樣本選取比例,讓算法可以獲得最好的收斂性和穩(wěn)定性,使算法具有更強(qiáng)的通用性。
[1] SUTTON R S, BARTO G A. Reinforcement learning: an introduction[M]. Cambridge: MIT press, 1998.
[2] 朱斐, 劉全, 傅啟明, 等. 一種用于連續(xù)動(dòng)作空間的最小二乘行動(dòng)者-評(píng)論家方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(3): 548-558. ZHU F, LIU Q, FU Q M. A least square actor-critic approach for continuous action space[J]. Journal of Computer Research and Development, 2014, 51(3): 548-558.
[3] 孫志軍, 薛磊, 許陽(yáng)明, 等. 深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(8): 2806-2810. SUN Z J, XUE L, XU Y M, et al. Overview of deep learning[J]. Application Research of Computers, 2012, 29(8): 2806-2810.
[4] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[5] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[6] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.
[7] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354-359.
[8] MNIH V, KAVUKCUOFLU K, SILVER D, et al. Playing atari with deep reinforcement learning[C]//Workshops at the 26th Neural Information Processing Systems. 2013.
[9] MNIH V, KAVUKCUOFLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.
[10] WATKINS C J C H. Learning from delayed rewards[J]. Robotics and Autonomous Systems, 1989, 15(4): 233-235.
[11] VAN H V, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C]//The AAAI Conference on Artificial Intelligence. 2016.
[12] HASSELT H V. Double Q-learning[C]//The Advances in Neural Information Processing Systems. 2010.
[13] SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay[C]//The 4th International Conference on Learning Representations. 2016: 322-355.
[14] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[J]. Advances in Neural Information Processing Systems, 2000, 12: 1057-1063.
[15] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C]//The 4th International Conference on Learning Representations. 2015.
[16] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//The International Conference on Machine Learning. 2014.
[17] GIVAN R, DEAN T, GREIG M. Equivalence notions and model minimization in Markov decision processes[J]. Artificial Intelligence, 2003, 147(1-2): 163-223.
[18] FERNS N, PANANGADEN P, PRECUP D. Metrics for finite markov decision processes[C]//The 20th Conference on Uncertainty in Artificial Intelligence. 2004.
Enhanced deep deterministic policy gradient algorithm
CHEN Jianping1,2,3,4, HE Chao1,2,3, LIU Quan5, WU Hongjie1,2,3,4, HU Fuyuan1,2,3,4, FU Qiming1,2,3,4
1. Institute of Electronics and Information Engineering, Suzhou University of Science and Technology, Suzhou 215009, China 2. Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency, Suzhou University of Science and Technology, Suzhou 215009, China 3. Suzhou Key Laboratory of Mobile Networking and Applied Technologies, Suzhou University of Science and Technology, Suzhou 215009, China 4. Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou, Suzhou University of Science and Technology, Suzhou 215009, China 5. School of Computer Science and Technology, Soochow University, Suzhou 215006, China
With the problem of slow convergence for deep deterministic policy gradient algorithm, an enhanced deep deterministic policy gradient algorithm was proposed. Based on the deep deterministic policy gradient algorithm, two sample pools were constructed, and the time difference error was introduced. The priority samples were added when the experience was played back. When the samples were trained, the samples were selected from two sample pools respectively. At the same time, the bisimulation metric was introduced to ensure the diversity of the selected samples and improve the convergence rate of the algorithm. The E-DDPG algorithm was used to pendulum problem. The experimental results show that the E-DDPG algorithm can effectively improve the convergence performance of the continuous action space problems and have better stability.
deep reinforcement learning, sample ranking, bisimulation metric, temporal difference error
TP391
A
10.11959/j.issn.1000?436x.2018238
陳建平(1963?),男,江蘇南京人,博士,蘇州科技大學(xué)教授,主要研究方向?yàn)榇髷?shù)據(jù)分析與應(yīng)用、建筑節(jié)能、智能信息處理。
何超(1993?),男,江蘇徐州人,蘇州科技大學(xué)碩士生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、深度學(xué)習(xí)、建筑節(jié)能。
劉全(1969?),男,內(nèi)蒙古牙克石人,博士,蘇州大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)橹悄苄畔⑻幚?、自?dòng)推理與機(jī)器學(xué)習(xí)。
吳宏杰(1977?),男,江蘇蘇州人,博士,蘇州科技大學(xué)副教授,主要研究方向?yàn)樯疃葘W(xué)習(xí)、模式識(shí)別、生物信息。
胡伏原(1978?),男,湖南岳陽(yáng)人,博士,蘇州科技大學(xué)教授,主要研究方向?yàn)槟J阶R(shí)別與機(jī)器學(xué)習(xí)。
傅啟明(1985?),男,江蘇淮安人,博士,蘇州科技大學(xué)講師,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、深度學(xué)習(xí)及建筑節(jié)能。
2018?03?22;
2018?08?01
傅啟明,fqm_1@126.com
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055, No.61672371, No.61602334, No.61502323);江蘇省自然科學(xué)基金資助項(xiàng)目(No.BK20140283);江蘇省重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No.BE2017663);江蘇省高校自然科學(xué)研究基金資助項(xiàng)目(No.13KJB520020);蘇州市應(yīng)用基礎(chǔ)研究計(jì)劃工業(yè)部分基金資助項(xiàng)目(No.SYG201422)
The National Natural Science Foundation of China (No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055, No.61672371, No.61602334, No.61502323), The Natural Science Foundation of Jiangsu Province (No.BK20140283), The Key Research and Development Program of Jiangsu Province (No.BE2017663), High School Natural Foundation of Jiangsu Province (No.13KJB520020), Suzhou Industrial Application of Basic Research Program Part (No.SYG201422)