劉仕超
摘 要:強化學習為開發(fā)模擬特性技能提供了一種很有效的方法,但強化學習通常需要稀疏手動的來獲取特征。依賴于深度強化學習,我們引進了動作-評價和專家學習混合的學習方法(MACE)來學習動態(tài)地形自適應技能,把高緯度狀態(tài)和地形描述作為該方法的輸入,參數(shù)化的跳躍或行走作為輸出動作。MACE方法比單一的動作-評價方法的學習效率更快,從而使動作-評價和專家學習變得更具獨特性。
關(guān)鍵詞:深度強化學習;地形自適應;卷積神經(jīng)網(wǎng)絡
人和動物在環(huán)境中優(yōu)雅敏捷的運動,在動畫片中,動物的動作通常是在熟練的動畫片制造者和捕獲到的動作數(shù)據(jù)的幫助下創(chuàng)造出來的。從基本原理出發(fā),應用強化學習和基于物理特性的仿真,呈現(xiàn)出了研發(fā)不同種類運動技能的美好前景。這需要通過一個連續(xù)的決策問題,涉及狀態(tài),動作,獎勵和控制決策的鏡頭看問題。給定當前狀態(tài)的特性,作為捕獲的狀態(tài),控制策略決定采取最佳動作,從而導致隨后的狀態(tài),以及獎勵發(fā)生改變。控制決策的目的是最大限度地提高預期的未來回報,即,任何直接的獎勵以及所有預期的回報。
本文應用深度神經(jīng)網(wǎng)絡與強化學習相結(jié)合的方式來解決上述問題。在運動技能領域,我們應用控制結(jié)構(gòu)建立設計動作參數(shù)的預期工作。強化學習過程中,值函數(shù)或者動作-值函數(shù)已經(jīng)作為導向函數(shù)應用于動作的合成上,基于深度神經(jīng)網(wǎng)絡的控制策略已經(jīng)能夠借助可微神經(jīng)網(wǎng)絡來控制動作。
1 原理
系統(tǒng)原理圖如圖1所示,它有三個嵌套循環(huán),每個嵌套對應于不同的時間尺度。最內(nèi)層循環(huán)模型是底層控制和基于物理特性的仿真過程;中間循環(huán)是在運動周期的時間尺度上運行;最外層循環(huán)是以動作-評估參數(shù)來進行決策更新。決策由動作評價對來決定,這些動作評價對的輸出就是深度神經(jīng)網(wǎng)絡的輸出。每個動作,都有其獨自的決策模型,動作選擇,根據(jù)基于軟最大化的模型,以一定的概率進行選擇,這個選擇是把動作賦予具有較高評價函數(shù)值Q的。在做出動作選擇時,可能會摻雜高斯噪聲,使得噪聲以一定的概率參與到輸出。
3 結(jié)論
本文應用深度強化,和基于物理特性的動作-評價專家學習模型,以及Boltzmann探索,使得學習性能更佳。這也避免了需要設計緊湊的手工制作的特征,并且允許針對可能不容易開發(fā)緊湊特征描述的地形進行學習策略的開發(fā)。
參考文獻:
[1] COROS, S., BEAUDOIN, P., YIN, K.K., AND VAN DE PANNE,M.2008.Synthesis of constrained walking skills.ACM Trans. Graph.27,5,Article 113.
[2] COROS, S., BEAUDOIN,P.,AND VAN DE PANNE,M.2010. Generalized biped walking control. ACM Transctions on Graphics 29,4,Article 130.
[3] HAUSKNECHT,M.,AND STONE,P.2015.Deep reinforcement learning in parameterized action space. arXiv preprint arXiv:1511.04143.
[4] HESTER, T., AND STONE, P.2013.Texplore: real-time sampleefficient reinforcement learning for robots. Machine Learning 90,3,385-429.
[5] LEE, Y., KIM, S., AND LEE, J. 2010.Data-driven biped control.ACM Transctions on Graphics 29,4,Article 129.