葉錦華, 吳海彬
(福州大學(xué)機械工程及自動化學(xué)院, 福建 福州 350116)
?
具有未知側(cè)滑和打滑的WMR強化學(xué)習(xí)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制
葉錦華, 吳海彬
(福州大學(xué)機械工程及自動化學(xué)院, 福建 福州350116)
摘要:利用反演設(shè)計, 提出一種強化學(xué)習(xí)自適應(yīng)神經(jīng)網(wǎng)絡(luò)輪式移動機器人(WMR)軌跡跟蹤控制方法. 首先在極坐標下建立WMR的軌跡跟蹤誤差模型, 并基于此設(shè)計運動學(xué)控制器. 然后, 針對WMR動力學(xué)系統(tǒng), 設(shè)計自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器. 結(jié)合強化學(xué)習(xí)機制, 同時對系統(tǒng)未知側(cè)滑、 打滑和模型不確定性進行優(yōu)化補償, 并引入魯棒控制項來消除補償誤差的影響, 進一步提高了控制效果. 所提控制方法使得閉環(huán)系統(tǒng)穩(wěn)定, 且最終一致有界收斂, 其有效性通過數(shù)值仿真結(jié)果得到了驗證.
關(guān)鍵詞:軌跡跟蹤; 自適應(yīng)神經(jīng)網(wǎng)絡(luò); 強化學(xué)習(xí)控制; 非完整輪式移動機器人; 不確定系統(tǒng)
0引言
輪式移動機器人(wheeled mobile robot, WMR)應(yīng)用領(lǐng)域日益廣泛. 由于受到非完整約束, 常規(guī)控制方法無法直接使用. 同時, 其還是多輸入多輸出耦合的欠驅(qū)動本質(zhì)非線性系統(tǒng), 使得此類系統(tǒng)的運動控制難度較大, 對WMR運動控制的研究已引起了國內(nèi)外學(xué)者的廣泛關(guān)注[1-4]. 在WMR一些特殊工作場合, 比如地面潮濕或高速運行時, 輪子會打滑, 破壞了系統(tǒng)的非完整性, 現(xiàn)有基于“純滾動無滑動”理想約束條件下設(shè)計的控制器不再適用. 目前, 僅少量文獻研究了不滿足非完整約束情形下WMR的運動控制策略[5-10], 文[5-6]分別設(shè)計WMR自適應(yīng)神經(jīng)網(wǎng)絡(luò)軌跡跟蹤控制器和魯棒軌跡跟蹤與鎮(zhèn)定統(tǒng)一控制器, 僅實現(xiàn)對WMR單一側(cè)滑的補償. 文[7]通過特定初始條件限制, 并借助于全球定位系統(tǒng)GPS同時對WMR的側(cè)滑和打滑進行數(shù)值測量, 設(shè)計了一類非線性控制器, 在存在側(cè)滑和打滑時, 仍可進行高性能的軌跡跟蹤. 文[8]研究了WMR的軌跡跟蹤控制, 采用模糊干擾觀測器對WMR側(cè)滑和打滑的進行觀測補償. 文[9]設(shè)計一種自適應(yīng)軌跡跟蹤控制器, 可對WMR側(cè)滑和打滑進行在線估計. 上述研究均未考慮WMR動力學(xué)系統(tǒng)不確定性的影響,為此, 文[10]提出一種基于魯棒觀測器的WMR軌跡跟蹤控制器, 同時抵御WMR側(cè)滑、 打滑和動力學(xué)系統(tǒng)不確定性的影響, 但需要系統(tǒng)總體不確定性的上界信息.
本研究在極坐標系統(tǒng)下, 研究存在未知側(cè)滑和打滑以及動力學(xué)系統(tǒng)參數(shù)和非參數(shù)不確定性的WMR軌跡跟蹤控制問題, 基于反演設(shè)計技術(shù), 提出一種結(jié)合魯棒控制的強化學(xué)習(xí)自適應(yīng)神經(jīng)網(wǎng)絡(luò)(RLANN)控制器. RLANN能夠優(yōu)化逼近任意不確定函數(shù)[11], 并利用強化學(xué)習(xí)機制來提高其逼近效率. RLANN和魯棒控制相結(jié)合, 使得文中控制器能夠補償已知信息少的復(fù)雜未知不確定性, 并保證控制器良好的適應(yīng)性和控制性能.
1數(shù)學(xué)模型分析
研究對象(2, 0)型[12]WMR的本體結(jié)構(gòu)和運動空間坐標系如圖1所示, {xoy}為全局坐標系, 局部坐標系為{xcocyc}, 參考軌跡上虛擬移動機器人WMR的局部坐標系為{xreforefyref}, 其前進速度和轉(zhuǎn)動速度分別為υref、 wref.WMR整車質(zhì)量為m, 質(zhì)心oc為兩輪中心連線的中點, 車身繞oc軸的慣量為I, 兩輪中心的距離為2b, 輪式半徑為r. υ和w分別為WMR的前進速度和轉(zhuǎn)動速度, ξ1和ξ2分別為WMR兩輪的打滑速度, vyc為WMR的側(cè)滑速度.
定義WMR的位姿為: q=[x,y,θ]T, 則受側(cè)滑和打滑影響下, WMR的運動學(xué)模型為[9]:
(1)
式中: v=[v,w]T, ζ=[r(ξ1+ξ2)/2,r(ξ1-ξ2)/(2b)]T, φ=[vycsinθ,vyccosθ, 0]T.
WMR的廣義力學(xué)系統(tǒng)標準形式為:
(2)
將式(1)求導(dǎo)后代入兩端乘以ST(q)的式(2), 并考慮到A(q)S(q)=0, 整理后得到包含WMR側(cè)滑、 打滑和動力學(xué)系統(tǒng)不確定性的動力學(xué)模型為:
(3)
2控制器設(shè)計
反演設(shè)計方法將系統(tǒng)分解為若干低階子系統(tǒng)進行處理, 可以有效降低系統(tǒng)控制器的設(shè)計復(fù)雜度, 基于反演法的原理, 對系統(tǒng)運動學(xué)和動力學(xué)兩個子系統(tǒng)分別進行控制器設(shè)計.
第一步運動學(xué)控制器設(shè)計.
(4)
(5)
由運動學(xué)模型(1)可知,WMR通過對兩驅(qū)動輪的不同轉(zhuǎn)速和轉(zhuǎn)向控制即可完全實現(xiàn)對其位姿的調(diào)整, 運動學(xué)控制器的控制目標是選擇合適的輔助控制律vc=[vf,wf]T, 使得e收斂于原點鄰域, 設(shè)計oc點輸出的運動學(xué)輔助控制器為:
(6)
式中: γ, k和h為正的常數(shù).
第二步動力學(xué)控制器設(shè)計.
在設(shè)計完成運動學(xué)控制器的基礎(chǔ)上, 以虛擬控制vc作為參考輸入, 通過一步反演設(shè)計來完成力矩控制器的設(shè)計, 定義速度跟蹤誤差為:
(7)
動力學(xué)控制器的控制目標是設(shè)計合適的力矩控制器τ, 使得ec收斂于原點鄰域, 從而近似實現(xiàn)“完美速度跟蹤”, 對式(7)求導(dǎo), 然后將式(3)代入可得到如下動力學(xué)誤差方程:
(8)
設(shè)計強化學(xué)習(xí)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器為:
(9)
式中: kd=diag(kd),kd為正的常數(shù). 魯棒控制項γ為:
(10)
(11)
(12)
式中:μl為第l個節(jié)點的中心點,ηl為高斯函數(shù)的基寬, ω為逼近誤差.
(13)
對權(quán)重矢量采用強化學(xué)習(xí)方法進行在線自適應(yīng)更新以保證取值最優(yōu), 提高了神經(jīng)網(wǎng)絡(luò)的逼近精度, 取自適應(yīng)更新律為:
(14)
(15)
式中: Γτ=diag(ντ), Γτc=diag(ντc),ντ,ντc,ητ為正的常數(shù); rτ表示強化學(xué)習(xí)(RL)信號, 該信號使用角色評價(actor-critic)機制來獲得, 取值為:
(16)
3穩(wěn)定性分析
定理對于不確定WMR系統(tǒng)(1), (3), (5), (8), 取控制器為(6), (9),RL自適應(yīng)律為(14)~(16), 則WMR系統(tǒng)是穩(wěn)定且最終一致有界(UUB)收斂的.
證明構(gòu)造Lyapunov函數(shù):
(17)
(18)
(19)
對V1求導(dǎo), 并將式(5), 運動學(xué)控制律(6)代入可得:
φ(sinα)/ed
(20)
對V2求導(dǎo), 并將式(8), (9), (14)~(16)代入, 得:
(21)
(22)
4仿真實驗
首先讓W(xué)MR圓弧期望軌跡, 跟蹤半徑為R=2,WMR的運行參數(shù)為:qr(0)=[2, 4,π/4]T, vref=1.414m/s, wref=vref/R.WMR的初始參數(shù)為:qref(0)=[4, 2,π/2]T, v(0)=w(0)=0. 文中動力學(xué)控制器關(guān)閉RLANN時的跟蹤效果如圖2所示. 由于系統(tǒng)受到側(cè)滑、 打滑, 以及動力學(xué)系統(tǒng)不確定性的影響, 跟蹤誤差很大, 調(diào)整控制器增益kd仍不能改善, 當(dāng)開啟RLANN后的跟蹤效果如圖3所示. 文中控制器有效地消除了系統(tǒng)復(fù)雜不確定性的影響, 跟蹤誤差和控制力矩輸入的變化如圖4、 圖5所示. 可見, 系統(tǒng)控制輸入平穩(wěn), 跟蹤誤差小, 取得較好的控制效果. 圖6所示為RLANN的動態(tài)逼近過程, 對系統(tǒng)總體不確定性進行了有效估計.
再進行WMR的8字形軌跡跟蹤, xref=sin(t/3), yref=sin(t/6), qref(0)=[0, 0, 0.463 4]T, 初始值分別為: q1=[1, 0, π/2]T, q2=[0, 0.5, 0]T,q3=[-0.5, -0.5, π]T, 結(jié)果如圖7所示. 可見, 對于變曲率復(fù)雜曲線, 基于文中控制器, WMR也達到了良好的跟蹤效果.
5結(jié)語
研究非完整約束被破壞且包含復(fù)雜不確定性的WMR, 基于反演法, 設(shè)計了結(jié)合魯棒控制和帶強化學(xué)習(xí)機制的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制的軌跡跟蹤控制器, 使得系統(tǒng)在同時受未知側(cè)滑、 打滑和動力學(xué)系統(tǒng)不確定性影響下, 仍能夠保證良好的控制品質(zhì). 通過強化學(xué)習(xí)自適應(yīng)機制提高了神經(jīng)網(wǎng)絡(luò)系統(tǒng)的收斂速度和補償精度, 結(jié)合魯棒項, 進一步提高了軌跡跟蹤的精度. 對圓弧軌跡和8字形曲線的軌跡跟蹤仿真實驗表明, 該控制器有效地消除系統(tǒng)復(fù)雜未知參數(shù)和非參數(shù)不確定性的影響, 保證WMR能快速、 精確地跟蹤期望軌跡.
參考文獻:
[1]BROCKETTRW.Asymptoticstabilityandfeedbackstabilization[M].Boston:Birkhauser, 1983.
[2]葉錦華, 李迪, 葉峰. 輪式移動機器人的雙強化學(xué)習(xí)自適應(yīng)模糊控制[J]. 吉林大學(xué)學(xué)報(工學(xué)版), 2014, 44(3): 12-20.
[3]AHMEDSA,MAYSAMFA,HAMEDSA.Applyingpostureidentifierindesigninganadaptivenonlinearpredictivecontrollerfornonholonomicmobilerobot[J].Neurocomputing, 2013, 99: 543-554.
[4]HUANGJS,WENCY,WANGW,etal. Adaptive stabilization and tracking control of a nonholonomic mobile robot with Input saturation and disturbance[J]. Systems & Control Letters, 2013, 62(3): 234-241.
[5]WANG Z P, GE S S, LEE T H. Adaptive neural network control of a wheeled mobile robot violating the pure nonholonomic constraint[C]//Proceedings of the 43rdIEEE Conference on Decision and Control. Bahamas: IEEE, 2004: 5 198-5 203.
[6]ZHU X C, DONG G H, CAI Z X,etal. Robust simultaneous tracking and stabilization of wheeled mobile robots not satisfying nonholonomic constraint[J]. J Cent South Univ Techno, 2007, 14(4): 537-545.
[7]CHANG B L, WANG D W. GPS-based path following control for a car-like wheeled mobile robot with skidding and slipping[J]. IEEE Transactions on Control Systems Technology, 2008, 16(2): 340-347.
[8]CHWA D. Fuzzy adaptive tracking control of wheeled mobile robots with state-dependent kinematic and dynamic disturbances[J]. IEEE Transactions on Fuzzy Systems, 2012, 20(3): 587-593.
[9]YOO S J. Adaptive tracking control for a class of wheeled mobile robots with unknown skidding and slipping[J]. IET Control Theory & Applications, 2010, 4(10): 2 109-2 119.
[10]KANG H S, KIM Y T, HYUN C H,etal. Generalized_extended state observer approach to robust tracking control for wheeled_mobile robot with skidding and slipping[J]. International Journal of Advanced Robotic Systems, 2013, 10(155): 1-10.
[11]HENDZEL Z. An adaptive critic neural network for motion control of a wheeled mobile robot[J]. Nonlinear Dynamics, 2007, 50(4): 849-855.
[12]JANG J O. Adaptive neuro-fuzzy network control for a mobile robot[J]. Journal of Intelligent & Robotic Systems, 2011, 62(3/4): 567-586.
(責(zé)任編輯: 沈蕓)
Reinforcement learning adaptive neural network control of WMR with unknown skidding and slipping
YE Jinhua, WU Haibin
(College of Mechanical Engineering and Automation, Fuzhou University, Fuzhou, Fujian 350116, China)
Abstract:A reinforcement learning adaptive neural network trajectory tracking control scheme is proposed for WMR, based on back stepping technique. Firstly, the trajectory tracking error model is established, and the kinematic controller is designed based on this model. Then, for WMR dynamic system, the adaptive neural network controller with reinforcement learning is designed, and unknown skidding, slipping and model uncertainties of the system are compensated optimally, the robust compensators are also used to eliminate the effects of compensating error, so the control performance is enhanced. The stability and ultimately uniformly bounded convergence of system are guaranteed with proposed control scheme. Simulations prove the validity of the proposed control scheme.
Keywords:trajectory tracking; adaptive neural network; reinforcement learning control; nonholonomic wheeled mobile robot; uncertain system
中圖分類號:TP24
文獻標識碼:A
基金項目:國家自然科學(xué)基金資助項目(51175084); 福建省自然科學(xué)基金資助項目(2015J05121); 福州大學(xué)科研啟動基金資助項目(510078); 福州大學(xué)科技發(fā)展基金資助項目(650053)
通訊作者:葉錦華(1982-), 博士, 講師, 主要從事機器人控制技術(shù)研究, yejinhua@fzu.edu.cn
收稿日期:2015-01-22
文章 編號:1000-2243(2016)02-0219-06
DOI:10.7631/issn.1000-2243.2016.02.0219