侯遠(yuǎn)韶
DOI:10.16660/j.cnki.1674-098x.2011-5640-9053
摘? 要:傳統(tǒng)的腿式機(jī)器人在未知環(huán)境中進(jìn)行運(yùn)動(dòng)控制和路徑規(guī)劃時(shí)收斂速度慢,路徑不夠優(yōu)化具有一定的局限性,無(wú)法滿足運(yùn)動(dòng)控制系統(tǒng)對(duì)實(shí)時(shí)性和精確度的要求。針對(duì)這一情況,將深度學(xué)習(xí)的學(xué)習(xí)能力與強(qiáng)化學(xué)習(xí)的決策能力有機(jī)地結(jié)合起來(lái),利用深度學(xué)習(xí)具有自動(dòng)特征提取和深度結(jié)構(gòu)的學(xué)習(xí)優(yōu)勢(shì),以及強(qiáng)化學(xué)習(xí)在閉環(huán)學(xué)習(xí)系統(tǒng)中對(duì)未知環(huán)境進(jìn)行探索、反饋再探索魯棒性強(qiáng)的特點(diǎn),從而解決機(jī)器人在運(yùn)動(dòng)控制中的復(fù)雜序貫決策得到最優(yōu)路徑規(guī)劃,最終實(shí)現(xiàn)腿式機(jī)器人合理的運(yùn)動(dòng)控制與決策。
關(guān)鍵詞:深度學(xué)習(xí)? 強(qiáng)化學(xué)習(xí)? 運(yùn)動(dòng)控制? 路徑規(guī)劃
中圖分類(lèi)號(hào):TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2021)01(c)-0111-04
Research on Motion Control and Decision of Legged Robot? ? ?based on Reinforcement Learning
HOU Yuanshao
(Department of Mechanical and Electrical Engineering, Henan Industry and Trade Vocational College, Zhengzhou ,Henan Province, 451191, China )
Abstract: Traditional legged robots converge slowly when performing motion control and path planning in an unknown environment, and the path is not optimized enough to have certain limitations, and cannot meet the real-time and accuracy requirements of the motion control system. In response to this situation, the learning ability of deep learning and the decision-making ability of reinforcement learning are organically combined, and deep learning has the advantages of automatic feature extraction and deep structure learning, as well as reinforcement learning to explore unknown environments in a closed-loop learning system. The feedback explores the characteristics of strong robustness, so as to solve the complex sequential decision-making of the robot in the motion control to obtain the optimal path planning, and finally realize the reasonable motion control and decision-making of the legged robot.
Key Words: Deep learning; Reinforcement learning;? Sport control;? Route plan
1? 強(qiáng)化學(xué)習(xí)
1.1 強(qiáng)化學(xué)習(xí)原理及系統(tǒng)組成
機(jī)器學(xué)習(xí)算法作為人工智能算法的核心,包含了有監(jiān)督、無(wú)監(jiān)督以及強(qiáng)化學(xué)習(xí)算法。其中強(qiáng)化學(xué)習(xí)算法作為一種典型的序貫決策問(wèn)題對(duì)無(wú)訓(xùn)練樣本數(shù)據(jù)具有很大的優(yōu)勢(shì),通過(guò)求解輸入輸出之間的最優(yōu)解來(lái)解決優(yōu)化問(wèn)題,是一種對(duì)控制策略進(jìn)行優(yōu)化的框架。強(qiáng)化學(xué)習(xí)作為一種學(xué)習(xí)算法通過(guò)模擬人的學(xué)習(xí)方式,利用已知的環(huán)境數(shù)據(jù),不斷優(yōu)化自身的決策,實(shí)現(xiàn)收益的最大化,最終得到準(zhǔn)確的位置判斷和決策控制[1]。標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)主要受環(huán)境狀態(tài)、動(dòng)作、探索率以及狀態(tài)轉(zhuǎn)移模型等8個(gè)因素的影響[2]。
1.2 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)
深度學(xué)習(xí)作為典型的機(jī)器學(xué)習(xí)算法也稱為深層結(jié)構(gòu)學(xué)習(xí),通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行逐級(jí)提取從而得到抽象的高層表征[3]。深度學(xué)習(xí)利用分層抽象的思想處理復(fù)雜的高維數(shù)據(jù),得到具有典型代表性的機(jī)器學(xué)習(xí)有效特征,同時(shí)深度學(xué)習(xí)可以利用網(wǎng)絡(luò)中任意一層的輸出數(shù)據(jù)作為特征的表達(dá),進(jìn)而實(shí)現(xiàn)特征提取與轉(zhuǎn)換,并反饋給高層數(shù)據(jù),繼而得到更加復(fù)雜抽象的特征[4]。
強(qiáng)化學(xué)習(xí)算法主要通過(guò)對(duì)人類(lèi)學(xué)習(xí)的心理學(xué)以及控制理論中路徑規(guī)劃的最優(yōu)控制分析,獲得知識(shí)進(jìn)而改進(jìn)策略以適應(yīng)復(fù)雜多變的環(huán)境[5]。主要分為模型已知的強(qiáng)化學(xué)習(xí)算法和模型未知的強(qiáng)化學(xué)習(xí)算法,兩種算法都需要通過(guò)環(huán)境交互得到信息,不同之處在于其中模型已知的強(qiáng)化學(xué)習(xí)算法可以利用已知模型對(duì)值函數(shù)進(jìn)行計(jì)算,進(jìn)而得到不同控制策略下的最佳輸出結(jié)果,主要代表算法有價(jià)值迭代算法和策略迭代算法;模型未知的強(qiáng)化學(xué)習(xí)算法,不依賴精確的模型,具有很好的適應(yīng)能力,通過(guò)比較利用與探索問(wèn)題進(jìn)而得到最優(yōu)策略,主要代表算法有時(shí)序差分算法和DQN算法[6]。強(qiáng)化學(xué)習(xí)具體流程如圖1所示。
1.3 深度強(qiáng)化學(xué)習(xí)與路徑規(guī)劃
傳統(tǒng)的路徑規(guī)劃算法以及運(yùn)動(dòng)控制策略可以實(shí)現(xiàn)基本的路徑規(guī)劃和避障運(yùn)動(dòng),但面對(duì)快速移動(dòng)的障礙物和復(fù)雜背景時(shí)往往出現(xiàn)規(guī)劃效率不高、收斂速度慢等問(wèn)題。另一方面,對(duì)于腿式機(jī)器人來(lái)說(shuō)不管是要進(jìn)行避障還是路徑規(guī)劃,對(duì)周邊環(huán)境信息的感知是第一步,因此通過(guò)深度強(qiáng)化學(xué)習(xí)強(qiáng)大的決策能力和感知能力,通過(guò)對(duì)外部環(huán)境數(shù)據(jù)進(jìn)行感知,進(jìn)而分析決策,最終將已知的原始高維數(shù)據(jù)轉(zhuǎn)化為末端的控制機(jī)制。
雖然強(qiáng)化學(xué)習(xí)在智能控制系統(tǒng)中得到了很大應(yīng)用,很好地結(jié)合了運(yùn)籌學(xué)、控制以及其他學(xué)科,為強(qiáng)化學(xué)習(xí)融入人工智能領(lǐng)域奠定了基礎(chǔ)。但是由于路徑規(guī)劃數(shù)據(jù)具有隨機(jī)性和依賴于傳感器獲取外部數(shù)據(jù),具有一定的時(shí)延性,且沒(méi)有既定的標(biāo)準(zhǔn)和模型可以依賴,因此強(qiáng)化學(xué)習(xí)存在初期學(xué)習(xí)時(shí)對(duì)策略的探索比較依賴,后期側(cè)重對(duì)最優(yōu)化的求解而忽略對(duì)新策略的尋找,具有一定的局限性。因此,強(qiáng)化學(xué)習(xí)需要在維數(shù)求解、對(duì)模型的收斂速度、對(duì)已知和未知問(wèn)題的研究現(xiàn)狀以及時(shí)間信度分配的問(wèn)題進(jìn)行研究。
2? 腿式機(jī)器人運(yùn)動(dòng)控制
2.1 路徑規(guī)劃算法
傳統(tǒng)的路徑規(guī)劃算法可以分為局部路徑規(guī)劃和全局路徑規(guī)劃,全局路徑規(guī)劃針對(duì)環(huán)境完全已知代表算法有粒子群算法、遺傳算法和A*算法;局部路徑規(guī)劃針對(duì)外部環(huán)境未知或者只有部分已知環(huán)境信息,通過(guò)傳感器實(shí)時(shí)感知外部數(shù)據(jù)代表算法有動(dòng)態(tài)窗口算法以及人工勢(shì)場(chǎng)法。傳統(tǒng)的路徑規(guī)劃算法作為典型的慎思框架,首先需要通過(guò)對(duì)外部環(huán)境進(jìn)行感知繼而建立規(guī)劃模型,然后做出運(yùn)動(dòng)策略,最后實(shí)現(xiàn)運(yùn)動(dòng),在這一過(guò)程中難以對(duì)突變環(huán)境作出應(yīng)對(duì),速度慢、同時(shí)容易陷入局部最優(yōu)而非全局最優(yōu),因此具有一定的局限性[7]。深度強(qiáng)化學(xué)習(xí)具有強(qiáng)大的自我學(xué)習(xí)能力和感知能力,可以實(shí)現(xiàn)腿式機(jī)器人的運(yùn)動(dòng)控制與路徑規(guī)劃,只需要對(duì)最終軌跡目標(biāo)進(jìn)行確定,而無(wú)需對(duì)其進(jìn)行主動(dòng)參與,就可以實(shí)現(xiàn)機(jī)器人與外部環(huán)境的交互,進(jìn)而對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)路徑的合理規(guī)劃以及運(yùn)動(dòng)控制和決策[8]。經(jīng)典的路徑規(guī)劃算法如圖2所示。
2.2 腿式機(jī)器人步行策略
腿式機(jī)器人具有非線性、多自由度以及多驅(qū)動(dòng)模式等特點(diǎn),具有較多的不穩(wěn)定因素因此建立合適的動(dòng)力學(xué)模型是腿式機(jī)器人步行策略必不可少的步驟。傳統(tǒng)的腿式機(jī)器人步行策略通過(guò)對(duì)步態(tài)設(shè)計(jì)以及模型運(yùn)用,實(shí)現(xiàn)機(jī)器人行走的穩(wěn)定性以及路徑規(guī)劃,主要分為動(dòng)態(tài)步行策略和靜態(tài)步行策略。動(dòng)態(tài)步行策略,通過(guò)分析機(jī)器人的運(yùn)行速度以及質(zhì)心,將運(yùn)動(dòng)問(wèn)題簡(jiǎn)化,生成關(guān)節(jié)軌跡,進(jìn)而利用逆運(yùn)動(dòng)方程進(jìn)行反向求解步態(tài)軌跡,對(duì)模型的精度要求較高;靜態(tài)步行策略,通過(guò)對(duì)步行過(guò)程中的重心投影計(jì)算得到其步態(tài)軌跡,如果其重心投影一直在支撐的區(qū)域內(nèi),那么其步態(tài)具有一定的穩(wěn)定性但速度較慢。因此,腿式機(jī)器人步行策略需要建立物理模型以避免動(dòng)力模型中參數(shù)的理想化假設(shè)與實(shí)際行走運(yùn)動(dòng)存在的誤差,最終實(shí)現(xiàn)腿式機(jī)器人的運(yùn)動(dòng)控制以及及時(shí)避障。
2.3 深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)控制
傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法雖然能夠在一定程度上對(duì)簡(jiǎn)單的目標(biāo)運(yùn)動(dòng)控制和路徑規(guī)劃作出分析判斷,但面對(duì)復(fù)雜環(huán)境和快速移動(dòng)的障礙物時(shí),傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往難以應(yīng)對(duì)。而另一方面,由于移動(dòng)機(jī)器人的運(yùn)行環(huán)境復(fù)雜多變,目標(biāo)和障礙物受各種因素的影響,具有不確定性,因此將強(qiáng)化學(xué)習(xí)的決策能力與深度學(xué)習(xí)擅長(zhǎng)對(duì)事物表征特點(diǎn)結(jié)合起來(lái),進(jìn)而提高算法對(duì)未知環(huán)境的求解,繼而得到準(zhǔn)確的數(shù)據(jù)輸出與路徑規(guī)劃。
在進(jìn)行深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)控制時(shí),需要考慮以下問(wèn)題:由于深度強(qiáng)化學(xué)習(xí)善于對(duì)像素類(lèi)數(shù)據(jù)進(jìn)行處理,而非圖像數(shù)據(jù)缺乏相應(yīng)的特征信息因此處理能力不足;同時(shí)在缺乏全局信息的情況下,機(jī)器人無(wú)法對(duì)外部環(huán)境做出全局判讀,進(jìn)而導(dǎo)致決策數(shù)據(jù)波動(dòng),值函數(shù)的收斂性能不好,難以有效實(shí)現(xiàn)運(yùn)動(dòng)控制。基于此,需要在原始的深度強(qiáng)化學(xué)習(xí)基礎(chǔ)上進(jìn)行改進(jìn),主要包括對(duì)傳感器采集的數(shù)據(jù)進(jìn)行降維處理,記憶網(wǎng)絡(luò)進(jìn)行長(zhǎng)短時(shí)設(shè)計(jì)以及改進(jìn)獎(jiǎng)賞函數(shù)和經(jīng)驗(yàn)回放。
3? 基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)控制與決策設(shè)計(jì)
3.1 避障策略
移動(dòng)機(jī)器人在進(jìn)行路徑規(guī)劃與運(yùn)動(dòng)控制時(shí),不可避免要進(jìn)行避障策略的研究。移動(dòng)機(jī)器人通過(guò)外部傳感器感知器路徑規(guī)劃過(guò)程中存在的動(dòng)態(tài)或靜態(tài)干擾因素,繼而改變規(guī)劃選擇新的路徑,最終到達(dá)終點(diǎn)。移動(dòng)機(jī)器人避障一方面依賴于傳感器獲取外部數(shù)據(jù),常見(jiàn)的傳感器有超聲波測(cè)距儀、紅外測(cè)距儀、激光以及視覺(jué)傳感器;另一方面,則依賴于避障算法,常見(jiàn)的避障算法有基于向量場(chǎng)直方圖(VFH)、勢(shì)場(chǎng)法(PFM)、模糊邏輯以及神經(jīng)網(wǎng)絡(luò)等,模糊邏輯的核心在于模糊控制器的訓(xùn)練,而神經(jīng)網(wǎng)絡(luò)方法在于訓(xùn)練模型的建立,這些方法雖然可以對(duì)大部分的障礙物作出合理判斷,但不具有普遍適用性?;趶?qiáng)化學(xué)習(xí)的避障策略是一個(gè)反復(fù)迭代的過(guò)程,這種算法只有一個(gè)值函數(shù)數(shù)據(jù),通過(guò)多次迭代,實(shí)現(xiàn)兩個(gè)問(wèn)題的循環(huán)往復(fù)即由已知策略求解值函數(shù),再根據(jù)值函數(shù)優(yōu)化策略,直到全局最優(yōu)解的出現(xiàn)。具體流程為設(shè)計(jì)狀態(tài)空間,繼而對(duì)離散動(dòng)作數(shù)據(jù)進(jìn)行優(yōu)化,獎(jiǎng)賞函數(shù)的選擇、動(dòng)作策略規(guī)劃,最終進(jìn)行深度網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。
3.2 結(jié)論及仿真
由于深度強(qiáng)化學(xué)習(xí)需要多次迭代,對(duì)計(jì)算機(jī)硬件要求較高,因此搭建仿真環(huán)境需要合適的仿真工具以及軟硬件設(shè)備,本文采用ROS Kinect操作系統(tǒng)作為機(jī)器人框架,仿真環(huán)境則采用開(kāi)源的Gazebo9.0;硬件則采用64G內(nèi)存,20G顯存,CPU則采用因特i7處理器,主頻為3.2G。為了減少系統(tǒng)的運(yùn)行時(shí)間,通過(guò)將路徑規(guī)劃模型加速計(jì)算,使代碼運(yùn)行速率加快,進(jìn)而提高仿真運(yùn)行速率。最后通過(guò)對(duì)大量實(shí)驗(yàn)數(shù)據(jù)結(jié)果進(jìn)行分析可知,基于強(qiáng)化學(xué)習(xí)的腿式機(jī)器人運(yùn)動(dòng)控制與決策,收斂速度快,路徑規(guī)劃具有較高的成功率,在面對(duì)復(fù)雜多變的外部環(huán)境時(shí),可以很好地進(jìn)行避障運(yùn)動(dòng),進(jìn)而實(shí)現(xiàn)高精度的運(yùn)動(dòng)控制與決策。
參考文獻(xiàn)
[1] 劉全,翟建偉,章宗長(zhǎng),等.深度強(qiáng)化學(xué)習(xí)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2018,41(1):1-27.
[2] 高陽(yáng),陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào),2004,30(1):86-100.
[3] 付如彬,李亮,徐成,等.基于強(qiáng)化學(xué)習(xí)的仿生機(jī)器魚(yú)節(jié)能研究[J].北京大學(xué)學(xué)報(bào).自然科學(xué)版,2019, 55(3):12-17.
[4] 董培方,張志安,梅新虎,等.引入勢(shì)場(chǎng)及陷阱搜索的強(qiáng)化學(xué)習(xí)路徑規(guī)劃算法[J].計(jì)算機(jī)工程與應(yīng)用, 2018(1):129-134.
[5] 吳曉光,劉紹維,楊磊,等.基于深度強(qiáng)化學(xué)習(xí)的雙足機(jī)器人斜坡步態(tài)控制方法[J].自動(dòng)化學(xué)報(bào),2020:73-78.
[6] 張自東,邱才明,張東霞,等.基于深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)復(fù)合儲(chǔ)能協(xié)調(diào)控制方法[J]. 電網(wǎng)技術(shù),2019, 43(6):1914-1921.
[7] 吳保勝, 郭宇, 王發(fā)麟,等. 基于改進(jìn)蟻群算法的線纜路徑規(guī)劃技術(shù)研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018,54(10):236-241.
[8] 王志中.基于改進(jìn)蟻群算法的移動(dòng)機(jī)器人路徑規(guī)劃研究[J].機(jī)械設(shè)計(jì)與制造,2018,323(1):248-250.