王輝 于婧
摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標(biāo)相對(duì)于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機(jī)性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實(shí)驗(yàn)平臺(tái),對(duì)經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進(jìn)行了對(duì)比分析。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);策略梯度;收斂性;仿真實(shí)驗(yàn)
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
強(qiáng)化學(xué)習(xí)可以分為基于值函數(shù)方法和策略梯度方法[1]?;谥岛瘮?shù)的算法,不需要顯性表示學(xué)習(xí)客體(agent)的行為策略,而是通過不停地更新狀態(tài)動(dòng)作對(duì)的累計(jì)期望回報(bào)來得到最優(yōu)值函數(shù)。在估計(jì)所得的最優(yōu)值函數(shù)基礎(chǔ)上,在整個(gè)狀態(tài)、動(dòng)作空間內(nèi),使用貪心算法來確定當(dāng)前狀態(tài)遷移時(shí)所需的最優(yōu)動(dòng)作。
值函數(shù)方法常用于對(duì)確定性策略的求解過程中,對(duì)于隨機(jī)性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對(duì)連續(xù)狀態(tài)、動(dòng)作空間環(huán)境時(shí)不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對(duì)于值函數(shù)方法,策略梯度方法能夠同時(shí)處理確定性策略和隨機(jī)性策略,并且在理論上能夠保證收斂。
策略[π]決定了Agent在當(dāng)前環(huán)境狀態(tài)下對(duì)動(dòng)作的選擇,動(dòng)作選擇后Agent按照某種概率分布遷移到下一個(gè)狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標(biāo)[J]的計(jì)算,不同的[π]的值對(duì)應(yīng)不同的[J]值,即優(yōu)化指標(biāo)是一個(gè)關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標(biāo)[J]達(dá)到最大。
NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預(yù)期有一定的出入。
從圖上也可以看出,強(qiáng)化學(xué)習(xí)策略梯度的方法引入先驗(yàn)知識(shí)的重要性。學(xué)習(xí)開始的時(shí)候累計(jì)回報(bào)波動(dòng)劇烈,原因是按照隨機(jī)概率隨意選取策略導(dǎo)致學(xué)習(xí)初期的時(shí)間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個(gè)系統(tǒng)情況。
參考文獻(xiàn):
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王學(xué)寧.增強(qiáng)學(xué)習(xí)中的直接策略搜索方法綜述[J].智能系統(tǒng)學(xué)報(bào),2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王學(xué)寧.策略梯度增強(qiáng)學(xué)習(xí)的理論、算法及應(yīng)用研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint
摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標(biāo)相對(duì)于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機(jī)性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實(shí)驗(yàn)平臺(tái),對(duì)經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進(jìn)行了對(duì)比分析。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);策略梯度;收斂性;仿真實(shí)驗(yàn)
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
強(qiáng)化學(xué)習(xí)可以分為基于值函數(shù)方法和策略梯度方法[1]?;谥岛瘮?shù)的算法,不需要顯性表示學(xué)習(xí)客體(agent)的行為策略,而是通過不停地更新狀態(tài)動(dòng)作對(duì)的累計(jì)期望回報(bào)來得到最優(yōu)值函數(shù)。在估計(jì)所得的最優(yōu)值函數(shù)基礎(chǔ)上,在整個(gè)狀態(tài)、動(dòng)作空間內(nèi),使用貪心算法來確定當(dāng)前狀態(tài)遷移時(shí)所需的最優(yōu)動(dòng)作。
值函數(shù)方法常用于對(duì)確定性策略的求解過程中,對(duì)于隨機(jī)性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對(duì)連續(xù)狀態(tài)、動(dòng)作空間環(huán)境時(shí)不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對(duì)于值函數(shù)方法,策略梯度方法能夠同時(shí)處理確定性策略和隨機(jī)性策略,并且在理論上能夠保證收斂。
策略[π]決定了Agent在當(dāng)前環(huán)境狀態(tài)下對(duì)動(dòng)作的選擇,動(dòng)作選擇后Agent按照某種概率分布遷移到下一個(gè)狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標(biāo)[J]的計(jì)算,不同的[π]的值對(duì)應(yīng)不同的[J]值,即優(yōu)化指標(biāo)是一個(gè)關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標(biāo)[J]達(dá)到最大。
NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預(yù)期有一定的出入。
從圖上也可以看出,強(qiáng)化學(xué)習(xí)策略梯度的方法引入先驗(yàn)知識(shí)的重要性。學(xué)習(xí)開始的時(shí)候累計(jì)回報(bào)波動(dòng)劇烈,原因是按照隨機(jī)概率隨意選取策略導(dǎo)致學(xué)習(xí)初期的時(shí)間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個(gè)系統(tǒng)情況。
參考文獻(xiàn):
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王學(xué)寧.增強(qiáng)學(xué)習(xí)中的直接策略搜索方法綜述[J].智能系統(tǒng)學(xué)報(bào),2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王學(xué)寧.策略梯度增強(qiáng)學(xué)習(xí)的理論、算法及應(yīng)用研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint
摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標(biāo)相對(duì)于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機(jī)性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實(shí)驗(yàn)平臺(tái),對(duì)經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進(jìn)行了對(duì)比分析。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);策略梯度;收斂性;仿真實(shí)驗(yàn)
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
強(qiáng)化學(xué)習(xí)可以分為基于值函數(shù)方法和策略梯度方法[1]?;谥岛瘮?shù)的算法,不需要顯性表示學(xué)習(xí)客體(agent)的行為策略,而是通過不停地更新狀態(tài)動(dòng)作對(duì)的累計(jì)期望回報(bào)來得到最優(yōu)值函數(shù)。在估計(jì)所得的最優(yōu)值函數(shù)基礎(chǔ)上,在整個(gè)狀態(tài)、動(dòng)作空間內(nèi),使用貪心算法來確定當(dāng)前狀態(tài)遷移時(shí)所需的最優(yōu)動(dòng)作。
值函數(shù)方法常用于對(duì)確定性策略的求解過程中,對(duì)于隨機(jī)性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對(duì)連續(xù)狀態(tài)、動(dòng)作空間環(huán)境時(shí)不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對(duì)于值函數(shù)方法,策略梯度方法能夠同時(shí)處理確定性策略和隨機(jī)性策略,并且在理論上能夠保證收斂。
策略[π]決定了Agent在當(dāng)前環(huán)境狀態(tài)下對(duì)動(dòng)作的選擇,動(dòng)作選擇后Agent按照某種概率分布遷移到下一個(gè)狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標(biāo)[J]的計(jì)算,不同的[π]的值對(duì)應(yīng)不同的[J]值,即優(yōu)化指標(biāo)是一個(gè)關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標(biāo)[J]達(dá)到最大。
NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預(yù)期有一定的出入。
從圖上也可以看出,強(qiáng)化學(xué)習(xí)策略梯度的方法引入先驗(yàn)知識(shí)的重要性。學(xué)習(xí)開始的時(shí)候累計(jì)回報(bào)波動(dòng)劇烈,原因是按照隨機(jī)概率隨意選取策略導(dǎo)致學(xué)習(xí)初期的時(shí)間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個(gè)系統(tǒng)情況。
參考文獻(xiàn):
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王學(xué)寧.增強(qiáng)學(xué)習(xí)中的直接策略搜索方法綜述[J].智能系統(tǒng)學(xué)報(bào),2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王學(xué)寧.策略梯度增強(qiáng)學(xué)習(xí)的理論、算法及應(yīng)用研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint