馬麗新 劉磊 劉晨
摘要為了提高移動機器人自主導航系統(tǒng)的智能化水平和安全性,設(shè)計了安全屏障機制下基于SAC(Soft Actor-Critic)算法的自主導航系統(tǒng),并構(gòu)建了依賴于機器人與最近障礙物距離、目標點距離以及偏航角的回報函數(shù).在Gazebo仿真平臺中,搭建載有激光雷達的移動機器人以及周圍環(huán)境.實驗結(jié)果表明,安全屏障機制在一定程度上降低了機器人撞擊障礙物的概率,提高了導航的成功率,并使得基于SAC算法的移動機器人自主導航系統(tǒng)具有更高的泛化能力.在更改起終點甚至將靜態(tài)環(huán)境改為動態(tài)時,系統(tǒng)仍具有自主導航的能力.
關(guān)鍵詞移動機器人;SAC算法;安全屏障機制;激光雷達;自主導航;Gazebo
中圖分類號
TP242.6
文獻標志碼
A
收稿日期
2022-06-01
資助項目
國家自然科學基金(61773152).
作者簡介馬麗新,女,碩士生,研究方向為強化學習、自主體控制.1623406486@qq.com
劉磊(通信作者),男,博士,教授,研究方向為強化學習理論研究與應用、多智能體系統(tǒng)分析與控制.liulei_hust@163.com
1河海大學理學院,南京,210098
0 引言
近幾年,具有自主導航功能的無人車已應用到日常生活中,如無人公交、無人網(wǎng)約巴士、無人配送車等.路徑規(guī)劃能力是衡量無人駕駛車輛是否可以自主導航的重要標準.傳統(tǒng)的路徑規(guī)劃方法通常需要人為提取特征來獲知環(huán)境信息,以完成對環(huán)境地圖的繪制、移動機器人的定位以及路徑規(guī)劃,但在復雜環(huán)境下很難實現(xiàn).而強化學習[1]不依賴于環(huán)境模型以及先驗知識,還可自主在線學習,近年來逐漸成為移動機器人自主導航的研究熱點[2].
隨著計算機硬件水平的提升,深度學習的任意逼近能力得以更大化地發(fā)揮,許多深度學習與強化學習相結(jié)合的算法被提出,如深度Q網(wǎng)絡[3] (Deep Q-Network,DQN)、深度確定性策略梯度[4](Deep Deterministic Policy Gradient,DDPG)等.2018年,Haarnoja等[5-6]針對無模型深度學習算法訓練不穩(wěn)定、收斂性差、調(diào)參困難等問題,提出一種基于最大熵強化學習框架的軟更新行動者-評論家算法(Soft Actor-Critic,SAC).最大熵的設(shè)計使得算法在動作的選擇上盡可能地隨機,既避免收斂到局部最優(yōu),也提高了訓練的穩(wěn)定性.另外,通過在MuJoCo模擬器上一系列最具挑戰(zhàn)性的連續(xù)控制任務中與DDPG、每步梯度更新都需要一定數(shù)量新樣本的近似策略優(yōu)化[7]等算法做對比實驗,凸顯了SAC算法性能的高穩(wěn)定性和先進性.
在路徑規(guī)劃領(lǐng)域,基于SAC算法的機器人自主導航相關(guān)研究已引起學者的廣泛關(guān)注.Xiang等[8]將LSTM網(wǎng)絡融入到SAC算法中用于移動機器人導航,以360°的10維激光雷達信息和目標信息為輸入,輸出連續(xù)空間的線速度和角速度,驗證了改進后的算法在訓練過程中平均回合回報(累計回報/累計回合數(shù))的增長速度較快.de Jesus等[9]同樣基于稀疏的10維激光雷達數(shù)據(jù),不過激光范圍是正前方180°,以雷達信息、目標方位、動作為網(wǎng)絡輸入,并創(chuàng)建了兩個不同的Gazebo環(huán)境,在每個環(huán)境中都對SAC、DDPG兩種深度強化學習技術(shù)在移動機器人導航中的應用效果做了比較,從導航成功率等方面驗證了SAC算法的性能優(yōu)于DDPG算法.
移動機器人的安全性在自主導航過程中是不可忽視的.近些年有學者通過在訓練環(huán)節(jié)增加安全機制,來降低危險動作被選擇的概率,進而促進機器人特定任務的完成.代珊珊等[10]針對無人車探索的安全問題,提出一種基于動作約束的軟行動者-評論家算法(Constrained Soft Actor-Critic,CSAC),將其用于載有攝像頭的無人車車道保持任務上.動作約束具體表現(xiàn)為當無人車轉(zhuǎn)動角度過大時,回報會相對較小;當無人車執(zhí)行某動作后偏離軌道或發(fā)生碰撞時,該動作將被標記為約束動作并在之后的訓練中合理約束.
基于以上啟發(fā),考慮到SAC算法在移動機器人路徑規(guī)劃領(lǐng)域的應用尚未被充分研究,本文以提高機器人自主導航系統(tǒng)的智能化水平和安全性為出發(fā)點,設(shè)計出一種安全屏障機制下基于SAC算法的機器人導航系統(tǒng).首先對SAC算法以及仿真平臺Gazebo做了簡單描述.然后搭建導航系統(tǒng),包括機器人狀態(tài)、動作、回報函數(shù)的定義以及安全屏障機制的設(shè)計.最后在Gazebo中訓練模型,通過靜態(tài)環(huán)境和動態(tài)環(huán)境等5組共300回合的對比測試驗證了安全屏障機制在提高導航成功率上的有效性.
4 模型效果測試
4.1 靜態(tài)環(huán)境
為了多方位探測模型的效果,共進行4組不同的測試,且在每組測試中都將SAC+安全屏障機制模型(SAC+)效果和無安全屏障機制的SAC模型效果做對比.其中,測試1的環(huán)境、起點和終點與訓練時的設(shè)置相同,測試2相對訓練僅更改了終點,測試3相對訓練更改了起點和終點,測試4的設(shè)置與模型訓練時完全不同,不僅將環(huán)境變得相對復雜,還改變了起點和終點(圖11).詳細測試條件配置及兩種模型的成功率對比結(jié)果如表4所示.
由表4看出,在測試3中,兩種模型的成功率均為100%,在測試1、2中,SAC+安全屏障機制模型的成功率略高于后者,而在更改了環(huán)境的測試4中,SAC+安全屏障機制模型的成功率遠高于SAC模型.
在4組測試中,兩種模型的導航軌跡長度(即動作步數(shù))對比如圖12—15所示(點狀表示該模型在當前回合導航失敗).在測試1圖12中,SAC+安全屏障機制模型的導航軌跡長度普遍低于SAC模型,而且100個回合無一失敗,驗證了SAC+安全屏障機制模型的高效性和穩(wěn)定性.在測試2圖13中,兩種模型均有導航失敗的情況,但SAC+安全屏障機制模型失敗次數(shù)較少,且在軌跡長度與SAC模型相差不大的情況下波動相對較小,更加體現(xiàn)出前者的穩(wěn)定性.在測試3圖14中,雖然SAC+安全屏障機制模型和SAC模型均無導航失敗的回合,但是在大多數(shù)回合中前者導航的軌跡長度短于后者.在測試4圖15中,兩種模型的效果差距很大,在SAC+安全屏障機制模型50次均導航成功時,SAC模型僅成功導航3次,一定程度上凸顯了前者在新環(huán)境的高適用度.
4.2 動態(tài)環(huán)境
根據(jù)表4中的模型測試結(jié)果,可以看出安全屏障機制下基于SAC算法的移動機器人自主導航系統(tǒng)在不同的靜態(tài)環(huán)境中導航成功率均較高.為了更全面地探究訓練模型對不同環(huán)境的泛化性以及魯棒性,創(chuàng)建含有靜態(tài)和動態(tài)障礙物的環(huán)境(圖16),再次測試模型的導航效果.
在動態(tài)環(huán)境圖16中,物體A為動態(tài)障礙物,在點(3.5,5.5)與點(4.3,4.7)之間以約0.062 m/s 的速度做勻速直線往返運動(圖16中黃色虛線).模型測試條件配置及導航成功率如表5所示.由表5可知,本文設(shè)計的系統(tǒng)在動態(tài)環(huán)境中的導航成功率表現(xiàn)雖然不及靜態(tài)環(huán)境,但仍優(yōu)于無安全屏障機制的導航系統(tǒng),表明安全屏障機制在提高導航成功率方面具有積極作用.
圖17為模型導航路徑長度對比(點狀表示該模型在當前回合導航失?。?其中SAC+安全屏障機制模型在第1、12回合導航的步數(shù)多于其他回合,是因為移動機器人為了躲避動態(tài)障礙物,選擇了先繞過障礙物B再向終點前進的路徑,體現(xiàn)了該導航系統(tǒng)的靈活性.
5 結(jié)論
本文在Gazebo3D仿真平臺構(gòu)建了基于安全屏障機制和SAC算法的移動機器人自主導航系統(tǒng),通過靜態(tài)和動態(tài)環(huán)境中的多組對比實驗驗證了安全屏障機制在提高機器人導航成功率方面的有效性.仿真使用的激光雷達只可掃描360°的同一平面信息,因此只有當障礙物相對規(guī)則(如長方體形、圓柱形等)時才能比較準確地測出距離信息.未來可通過配置多個不同水平面的雷達或使用更高級的雷達來增大導航系統(tǒng)對障礙物形狀的包容度,使得仿真環(huán)境更加貼近復雜的現(xiàn)實場景.
參考文獻
References
[1] Sutton R S,Barto A G.Reinforcement learning:an intro-duction[J].IEEE Transactions on Neural Networks,1998,9(5):1054
[2] 劉志榮,姜樹海.基于強化學習的移動機器人路徑規(guī)劃研究綜述[J].制造業(yè)自動化,2019,41(3):90-92
LIU Zhirong,JIANG Shuhai.Review of mobile robot path planning based on reinforcement learning[J].Manufacturing Automation,2019,41(3):90-92
[3] Mnih V,Kavukcuoglu K,Silver D,et al.Playing atari with deep reinforcement learning[J].arXiv e-print,2013,arXiv:1312.5602
[4] Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control with deep reinforcement learning[J].arXiv e-print,2015,arXiv:1509.02971
[5] Haarnoja T,Zhou A,Abbeel P,et al.Soft actor-critic:off-policy maximum entropy deep reinforcement learning with a stochastic actor[J].arXiv e-print,2018,arXiv:1801.01290
[6] Haarnoja T,Zhou A,Hartikainen K,et al.Soft actor-critic algorithms and applications[J].arXiv e-print,2018,arXiv:1812.05905
[7] Schulman J,Wolski F,Dhariwal P,et al.Proximal policy optimization algorithms[J].arXiv e-print,2017,arXiv:1707.06347
[8] Xiang J Q,Li Q D,Dong X W,et al.Continuous control with deep reinforcement learning for mobile robot navigation[C]//2019 Chinese Automation Congress (CAC).November 22-24,2019,Hangzhou,China.IEEE,2019:1501-1506
[9] de Jesus J C,Kich V A,Kolling A H,et al.Soft actor-critic for navigation of mobile robots[J].Journal of Intelligent & Robotic Systems,2021,102(2):31
[10] 代珊珊,劉全.基于動作約束深度強化學習的安全自動駕駛方法[J].計算機科學,2021,48(9):235-243
DAI Shanshan,LIU Quan.Action constrained deep reinforcement learning based safe automatic driving method[J].Computer Science,2021,48(9):235-243
[11] Polyak B T,Juditsky A B.Acceleration of stochastic approximation by averaging[J].SIAM Journal on Control and Optimization,1992,30(4):838-855
[12] Koenig N,Howard A.Design and use paradigms for Gazebo,an open-source multi-robot simulator[C]//2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).September 28-October 2,2004,Sendai,Japan.IEEE,2004:2149-2154
[13] Quigley M,Gerkey B P,Conley K,et al.ROS:an open-source robot operating system[C]//ICRA Workshop on Open-Source Software,2009
Robot navigation system based on SAC with security barrier mechanism
MA Lixin1 LIU Lei1 LIU Chen1
1College of Science,Hohai University,Nanjing 210098
Abstract An autonomous navigation system was proposed based on Soft Actor-Critic under the security barrier mechanism to improve the intelligence and security of mobile robot autonomous navigation system.The return function was designed based on distance between the robot and the nearest obstacle,the distance from the target point,and the yaw angle.On the Gazebo simulation platform,a mobile robot with lidar and its surrounding environment were built.Experiments showed that the security barrier mechanism reduced the probability of collision with obstacles to a certain extent,improved the success rate of navigation,and made the SAC-based mobile robot autonomous navigation system have high generalization ability.The system still had the ability of autonomous navigation when changing the origin and destination or even changing the environment from static to dynamic.
Key words mobile robot;soft actor-critic (SAC);security barrier mechanism;lidar;autonomous navigation;Gazebo