侯遠(yuǎn)韶
DOI:10.16660/j.cnki.1674-098x.2011-5640-9053
摘? 要:傳統(tǒng)的腿式機(jī)器人在未知環(huán)境中進(jìn)行運(yùn)動控制和路徑規(guī)劃時(shí)收斂速度慢,路徑不夠優(yōu)化具有一定的局限性,無法滿足運(yùn)動控制系統(tǒng)對實(shí)時(shí)性和精確度的要求。針對這一情況,將深度學(xué)習(xí)的學(xué)習(xí)能力與強(qiáng)化學(xué)習(xí)的決策能力有機(jī)地結(jié)合起來,利用深度學(xué)習(xí)具有自動特征提取和深度結(jié)構(gòu)的學(xué)習(xí)優(yōu)勢,以及強(qiáng)化學(xué)習(xí)在閉環(huán)學(xué)習(xí)系統(tǒng)中對未知環(huán)境進(jìn)行探索、反饋再探索魯棒性強(qiáng)的特點(diǎn),從而解決機(jī)器人在運(yùn)動控制中的復(fù)雜序貫決策得到最優(yōu)路徑規(guī)劃,最終實(shí)現(xiàn)腿式機(jī)器人合理的運(yùn)動控制與決策。
關(guān)鍵詞:深度學(xué)習(xí)? 強(qiáng)化學(xué)習(xí)? 運(yùn)動控制? 路徑規(guī)劃
中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)01(c)-0111-04
Research on Motion Control and Decision of Legged Robot? ? ?based on Reinforcement Learning
HOU Yuanshao
(Department of Mechanical and Electrical Engineering, Henan Industry and Trade Vocational College, Zhengzhou ,Henan Province, 451191, China )
Abstract: Traditional legged robots converge slowly when performing motion control and path planning in an unknown environment, and the path is not optimized enough to have certain limitations, and cannot meet the real-time and accuracy requirements of the motion control system. In response to this situation, the learning ability of deep learning and the decision-making ability of reinforcement learning are organically combined, and deep learning has the advantages of automatic feature extraction and deep structure learning, as well as reinforcement learning to explore unknown environments in a closed-loop learning system. The feedback explores the characteristics of strong robustness, so as to solve the complex sequential decision-making of the robot in the motion control to obtain the optimal path planning, and finally realize the reasonable motion control and decision-making of the legged robot.
Key Words: Deep learning; Reinforcement learning;? Sport control;? Route plan
1? 強(qiáng)化學(xué)習(xí)
1.1 強(qiáng)化學(xué)習(xí)原理及系統(tǒng)組成
機(jī)器學(xué)習(xí)算法作為人工智能算法的核心,包含了有監(jiān)督、無監(jiān)督以及強(qiáng)化學(xué)習(xí)算法。其中強(qiáng)化學(xué)習(xí)算法作為一種典型的序貫決策問題對無訓(xùn)練樣本數(shù)據(jù)具有很大的優(yōu)勢,通過求解輸入輸出之間的最優(yōu)解來解決優(yōu)化問題,是一種對控制策略進(jìn)行優(yōu)化的框架。強(qiáng)化學(xué)習(xí)作為一種學(xué)習(xí)算法通過模擬人的學(xué)習(xí)方式,利用已知的環(huán)境數(shù)據(jù),不斷優(yōu)化自身的決策,實(shí)現(xiàn)收益的最大化,最終得到準(zhǔn)確的位置判斷和決策控制[1]。標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)主要受環(huán)境狀態(tài)、動作、探索率以及狀態(tài)轉(zhuǎn)移模型等8個(gè)因素的影響[2]。
1.2 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)
深度學(xué)習(xí)作為典型的機(jī)器學(xué)習(xí)算法也稱為深層結(jié)構(gòu)學(xué)習(xí),通過對原始數(shù)據(jù)進(jìn)行逐級提取從而得到抽象的高層表征[3]。深度學(xué)習(xí)利用分層抽象的思想處理復(fù)雜的高維數(shù)據(jù),得到具有典型代表性的機(jī)器學(xué)習(xí)有效特征,同時(shí)深度學(xué)習(xí)可以利用網(wǎng)絡(luò)中任意一層的輸出數(shù)據(jù)作為特征的表達(dá),進(jìn)而實(shí)現(xiàn)特征提取與轉(zhuǎn)換,并反饋給高層數(shù)據(jù),繼而得到更加復(fù)雜抽象的特征[4]。
強(qiáng)化學(xué)習(xí)算法主要通過對人類學(xué)習(xí)的心理學(xué)以及控制理論中路徑規(guī)劃的最優(yōu)控制分析,獲得知識進(jìn)而改進(jìn)策略以適應(yīng)復(fù)雜多變的環(huán)境[5]。主要分為模型已知的強(qiáng)化學(xué)習(xí)算法和模型未知的強(qiáng)化學(xué)習(xí)算法,兩種算法都需要通過環(huán)境交互得到信息,不同之處在于其中模型已知的強(qiáng)化學(xué)習(xí)算法可以利用已知模型對值函數(shù)進(jìn)行計(jì)算,進(jìn)而得到不同控制策略下的最佳輸出結(jié)果,主要代表算法有價(jià)值迭代算法和策略迭代算法;模型未知的強(qiáng)化學(xué)習(xí)算法,不依賴精確的模型,具有很好的適應(yīng)能力,通過比較利用與探索問題進(jìn)而得到最優(yōu)策略,主要代表算法有時(shí)序差分算法和DQN算法[6]。強(qiáng)化學(xué)習(xí)具體流程如圖1所示。
1.3 深度強(qiáng)化學(xué)習(xí)與路徑規(guī)劃
傳統(tǒng)的路徑規(guī)劃算法以及運(yùn)動控制策略可以實(shí)現(xiàn)基本的路徑規(guī)劃和避障運(yùn)動,但面對快速移動的障礙物和復(fù)雜背景時(shí)往往出現(xiàn)規(guī)劃效率不高、收斂速度慢等問題。另一方面,對于腿式機(jī)器人來說不管是要進(jìn)行避障還是路徑規(guī)劃,對周邊環(huán)境信息的感知是第一步,因此通過深度強(qiáng)化學(xué)習(xí)強(qiáng)大的決策能力和感知能力,通過對外部環(huán)境數(shù)據(jù)進(jìn)行感知,進(jìn)而分析決策,最終將已知的原始高維數(shù)據(jù)轉(zhuǎn)化為末端的控制機(jī)制。
雖然強(qiáng)化學(xué)習(xí)在智能控制系統(tǒng)中得到了很大應(yīng)用,很好地結(jié)合了運(yùn)籌學(xué)、控制以及其他學(xué)科,為強(qiáng)化學(xué)習(xí)融入人工智能領(lǐng)域奠定了基礎(chǔ)。但是由于路徑規(guī)劃數(shù)據(jù)具有隨機(jī)性和依賴于傳感器獲取外部數(shù)據(jù),具有一定的時(shí)延性,且沒有既定的標(biāo)準(zhǔn)和模型可以依賴,因此強(qiáng)化學(xué)習(xí)存在初期學(xué)習(xí)時(shí)對策略的探索比較依賴,后期側(cè)重對最優(yōu)化的求解而忽略對新策略的尋找,具有一定的局限性。因此,強(qiáng)化學(xué)習(xí)需要在維數(shù)求解、對模型的收斂速度、對已知和未知問題的研究現(xiàn)狀以及時(shí)間信度分配的問題進(jìn)行研究。
2? 腿式機(jī)器人運(yùn)動控制
2.1 路徑規(guī)劃算法
傳統(tǒng)的路徑規(guī)劃算法可以分為局部路徑規(guī)劃和全局路徑規(guī)劃,全局路徑規(guī)劃針對環(huán)境完全已知代表算法有粒子群算法、遺傳算法和A*算法;局部路徑規(guī)劃針對外部環(huán)境未知或者只有部分已知環(huán)境信息,通過傳感器實(shí)時(shí)感知外部數(shù)據(jù)代表算法有動態(tài)窗口算法以及人工勢場法。傳統(tǒng)的路徑規(guī)劃算法作為典型的慎思框架,首先需要通過對外部環(huán)境進(jìn)行感知繼而建立規(guī)劃模型,然后做出運(yùn)動策略,最后實(shí)現(xiàn)運(yùn)動,在這一過程中難以對突變環(huán)境作出應(yīng)對,速度慢、同時(shí)容易陷入局部最優(yōu)而非全局最優(yōu),因此具有一定的局限性[7]。深度強(qiáng)化學(xué)習(xí)具有強(qiáng)大的自我學(xué)習(xí)能力和感知能力,可以實(shí)現(xiàn)腿式機(jī)器人的運(yùn)動控制與路徑規(guī)劃,只需要對最終軌跡目標(biāo)進(jìn)行確定,而無需對其進(jìn)行主動參與,就可以實(shí)現(xiàn)機(jī)器人與外部環(huán)境的交互,進(jìn)而對網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)路徑的合理規(guī)劃以及運(yùn)動控制和決策[8]。經(jīng)典的路徑規(guī)劃算法如圖2所示。
2.2 腿式機(jī)器人步行策略
腿式機(jī)器人具有非線性、多自由度以及多驅(qū)動模式等特點(diǎn),具有較多的不穩(wěn)定因素因此建立合適的動力學(xué)模型是腿式機(jī)器人步行策略必不可少的步驟。傳統(tǒng)的腿式機(jī)器人步行策略通過對步態(tài)設(shè)計(jì)以及模型運(yùn)用,實(shí)現(xiàn)機(jī)器人行走的穩(wěn)定性以及路徑規(guī)劃,主要分為動態(tài)步行策略和靜態(tài)步行策略。動態(tài)步行策略,通過分析機(jī)器人的運(yùn)行速度以及質(zhì)心,將運(yùn)動問題簡化,生成關(guān)節(jié)軌跡,進(jìn)而利用逆運(yùn)動方程進(jìn)行反向求解步態(tài)軌跡,對模型的精度要求較高;靜態(tài)步行策略,通過對步行過程中的重心投影計(jì)算得到其步態(tài)軌跡,如果其重心投影一直在支撐的區(qū)域內(nèi),那么其步態(tài)具有一定的穩(wěn)定性但速度較慢。因此,腿式機(jī)器人步行策略需要建立物理模型以避免動力模型中參數(shù)的理想化假設(shè)與實(shí)際行走運(yùn)動存在的誤差,最終實(shí)現(xiàn)腿式機(jī)器人的運(yùn)動控制以及及時(shí)避障。
2.3 深度強(qiáng)化學(xué)習(xí)的運(yùn)動控制
傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法雖然能夠在一定程度上對簡單的目標(biāo)運(yùn)動控制和路徑規(guī)劃作出分析判斷,但面對復(fù)雜環(huán)境和快速移動的障礙物時(shí),傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往難以應(yīng)對。而另一方面,由于移動機(jī)器人的運(yùn)行環(huán)境復(fù)雜多變,目標(biāo)和障礙物受各種因素的影響,具有不確定性,因此將強(qiáng)化學(xué)習(xí)的決策能力與深度學(xué)習(xí)擅長對事物表征特點(diǎn)結(jié)合起來,進(jìn)而提高算法對未知環(huán)境的求解,繼而得到準(zhǔn)確的數(shù)據(jù)輸出與路徑規(guī)劃。
在進(jìn)行深度強(qiáng)化學(xué)習(xí)的運(yùn)動控制時(shí),需要考慮以下問題:由于深度強(qiáng)化學(xué)習(xí)善于對像素類數(shù)據(jù)進(jìn)行處理,而非圖像數(shù)據(jù)缺乏相應(yīng)的特征信息因此處理能力不足;同時(shí)在缺乏全局信息的情況下,機(jī)器人無法對外部環(huán)境做出全局判讀,進(jìn)而導(dǎo)致決策數(shù)據(jù)波動,值函數(shù)的收斂性能不好,難以有效實(shí)現(xiàn)運(yùn)動控制。基于此,需要在原始的深度強(qiáng)化學(xué)習(xí)基礎(chǔ)上進(jìn)行改進(jìn),主要包括對傳感器采集的數(shù)據(jù)進(jìn)行降維處理,記憶網(wǎng)絡(luò)進(jìn)行長短時(shí)設(shè)計(jì)以及改進(jìn)獎賞函數(shù)和經(jīng)驗(yàn)回放。
3? 基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動控制與決策設(shè)計(jì)
3.1 避障策略
移動機(jī)器人在進(jìn)行路徑規(guī)劃與運(yùn)動控制時(shí),不可避免要進(jìn)行避障策略的研究。移動機(jī)器人通過外部傳感器感知器路徑規(guī)劃過程中存在的動態(tài)或靜態(tài)干擾因素,繼而改變規(guī)劃選擇新的路徑,最終到達(dá)終點(diǎn)。移動機(jī)器人避障一方面依賴于傳感器獲取外部數(shù)據(jù),常見的傳感器有超聲波測距儀、紅外測距儀、激光以及視覺傳感器;另一方面,則依賴于避障算法,常見的避障算法有基于向量場直方圖(VFH)、勢場法(PFM)、模糊邏輯以及神經(jīng)網(wǎng)絡(luò)等,模糊邏輯的核心在于模糊控制器的訓(xùn)練,而神經(jīng)網(wǎng)絡(luò)方法在于訓(xùn)練模型的建立,這些方法雖然可以對大部分的障礙物作出合理判斷,但不具有普遍適用性?;趶?qiáng)化學(xué)習(xí)的避障策略是一個(gè)反復(fù)迭代的過程,這種算法只有一個(gè)值函數(shù)數(shù)據(jù),通過多次迭代,實(shí)現(xiàn)兩個(gè)問題的循環(huán)往復(fù)即由已知策略求解值函數(shù),再根據(jù)值函數(shù)優(yōu)化策略,直到全局最優(yōu)解的出現(xiàn)。具體流程為設(shè)計(jì)狀態(tài)空間,繼而對離散動作數(shù)據(jù)進(jìn)行優(yōu)化,獎賞函數(shù)的選擇、動作策略規(guī)劃,最終進(jìn)行深度網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。
3.2 結(jié)論及仿真
由于深度強(qiáng)化學(xué)習(xí)需要多次迭代,對計(jì)算機(jī)硬件要求較高,因此搭建仿真環(huán)境需要合適的仿真工具以及軟硬件設(shè)備,本文采用ROS Kinect操作系統(tǒng)作為機(jī)器人框架,仿真環(huán)境則采用開源的Gazebo9.0;硬件則采用64G內(nèi)存,20G顯存,CPU則采用因特i7處理器,主頻為3.2G。為了減少系統(tǒng)的運(yùn)行時(shí)間,通過將路徑規(guī)劃模型加速計(jì)算,使代碼運(yùn)行速率加快,進(jìn)而提高仿真運(yùn)行速率。最后通過對大量實(shí)驗(yàn)數(shù)據(jù)結(jié)果進(jìn)行分析可知,基于強(qiáng)化學(xué)習(xí)的腿式機(jī)器人運(yùn)動控制與決策,收斂速度快,路徑規(guī)劃具有較高的成功率,在面對復(fù)雜多變的外部環(huán)境時(shí),可以很好地進(jìn)行避障運(yùn)動,進(jìn)而實(shí)現(xiàn)高精度的運(yùn)動控制與決策。
參考文獻(xiàn)
[1] 劉全,翟建偉,章宗長,等.深度強(qiáng)化學(xué)習(xí)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2018,41(1):1-27.
[2] 高陽,陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動化學(xué)報(bào),2004,30(1):86-100.
[3] 付如彬,李亮,徐成,等.基于強(qiáng)化學(xué)習(xí)的仿生機(jī)器魚節(jié)能研究[J].北京大學(xué)學(xué)報(bào).自然科學(xué)版,2019, 55(3):12-17.
[4] 董培方,張志安,梅新虎,等.引入勢場及陷阱搜索的強(qiáng)化學(xué)習(xí)路徑規(guī)劃算法[J].計(jì)算機(jī)工程與應(yīng)用, 2018(1):129-134.
[5] 吳曉光,劉紹維,楊磊,等.基于深度強(qiáng)化學(xué)習(xí)的雙足機(jī)器人斜坡步態(tài)控制方法[J].自動化學(xué)報(bào),2020:73-78.
[6] 張自東,邱才明,張東霞,等.基于深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)復(fù)合儲能協(xié)調(diào)控制方法[J]. 電網(wǎng)技術(shù),2019, 43(6):1914-1921.
[7] 吳保勝, 郭宇, 王發(fā)麟,等. 基于改進(jìn)蟻群算法的線纜路徑規(guī)劃技術(shù)研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018,54(10):236-241.
[8] 王志中.基于改進(jìn)蟻群算法的移動機(jī)器人路徑規(guī)劃研究[J].機(jī)械設(shè)計(jì)與制造,2018,323(1):248-250.