臧強(qiáng) 田浪 胡凱 陳煒峰
機(jī)器人最初應(yīng)用于汽車制造業(yè),隨著算法與制造技術(shù)的成熟,機(jī)器人廣泛應(yīng)用于拋光、打磨、去毛刺等精細(xì)化工作中,在這些工作中出現(xiàn)的環(huán)境接觸力會(huì)影響機(jī)器人的工作質(zhì)量.機(jī)器人通過搭載力傳感器,將傳感器的檢測(cè)信息作為力反饋信號(hào),實(shí)現(xiàn)機(jī)器人對(duì)環(huán)境接觸力的控制,使機(jī)器人能夠穩(wěn)定準(zhǔn)確地完成作業(yè).目前機(jī)器人力控制策略方法大致分為阻抗控制、位/力混合控制、自適應(yīng)控制和智能控制四類.隨著工業(yè)生產(chǎn)的自動(dòng)化與智能化,以及人工智能技術(shù)的不斷發(fā)展,智能控制策略成為機(jī)器人力控制的發(fā)展主流與研究重點(diǎn).為方便對(duì)控制方法進(jìn)行介紹,將控制方法大致分為傳統(tǒng)控制(阻抗控制、位/力混合控制、自適應(yīng)控制)與智能控制兩類.
Hogan[1]提出了阻抗控制方法,用于分析環(huán)境剛度不確定的情況.位/力混合控制方法來源于Raibert等[2]提出的對(duì)位置與力同時(shí)控制的想法,根據(jù)工業(yè)機(jī)器人工作的內(nèi)容,針對(duì)機(jī)器人的各個(gè)關(guān)節(jié)進(jìn)行位置控制或力控制.自適應(yīng)控制方法是根據(jù)生物通過改變自身習(xí)性以適應(yīng)環(huán)境的特征而設(shè)計(jì)的一種控制方法.這些控制方法在應(yīng)用時(shí),需要被控對(duì)象建立準(zhǔn)確的模型.但由于機(jī)器人本身一直存在著時(shí)變性、不確定性以及強(qiáng)耦合性,使得機(jī)器人難以建立模型.此外,機(jī)器人末端的力反饋輸入也讓建立整個(gè)機(jī)器人的模型變得更為困難.機(jī)器人模型的難以建立,讓傳統(tǒng)控制策略無法徹底地解決機(jī)器人力控制問題,無法達(dá)到期望的工作效果.
智能控制策略是一系列智能控制方法的總稱,其中常用的控制方法是模糊邏輯控制、神經(jīng)網(wǎng)絡(luò)控制以及優(yōu)化算法控制等.模糊邏輯控制是源于模糊集合理論的控制方法,它通過大量經(jīng)驗(yàn)形成的模糊規(guī)則進(jìn)行決策控制;神經(jīng)網(wǎng)絡(luò)控制方法通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來決策控制;優(yōu)化算法控制主要是通過仿生動(dòng)物的群體智能行為來決策控制.這些智能控制方法相較于傳統(tǒng)控制方法,極大地降低了對(duì)模型準(zhǔn)確度的要求,因此智能控制方法提出后,被廣泛應(yīng)用于機(jī)器人領(lǐng)域.
傳統(tǒng)力控制策略主要是阻抗控制、位/力混合控制與自適應(yīng)控制方法.本章將依次介紹阻抗控制、位/力混合控制以及自適應(yīng)控制的相關(guān)知識(shí),并介紹其與智能控制方法相結(jié)合的機(jī)器人應(yīng)用實(shí)例.
阻抗控制主要從力與位置兩個(gè)方面進(jìn)行研究,分別為基于力的阻抗控制與基于位置的阻抗控制.基于力的阻抗控制通過控制關(guān)節(jié)驅(qū)動(dòng)力矩陣來實(shí)現(xiàn)對(duì)末端接觸力和位移的調(diào)整,而基于位置的阻抗控制則是根據(jù)機(jī)器人與環(huán)境的接觸力偏差,通過調(diào)整機(jī)器人末端的位置/速度實(shí)現(xiàn)控制的.
1.1.1 基于力矩的阻抗控制
圖1 基于力矩的阻抗控制Fig.1 Torque-based impedance control
Beretta等[3]在對(duì)神經(jīng)外科的醫(yī)療機(jī)器人的研究中,驗(yàn)證一種基于扭矩的阻抗來輔助腦靶向方法施行的可行性.對(duì)于手術(shù)機(jī)器人而言,控制的精度以及振動(dòng)抑制尤為重要,所以Beretta 等[3]結(jié)合腦內(nèi)圖像的導(dǎo)航系統(tǒng),提出變阻尼控制和基于力反饋增強(qiáng)控制兩種改進(jìn)的基于力矩的阻抗控制方法.這兩種控制方法將腦模擬影像作為實(shí)驗(yàn)基礎(chǔ),并選取13位初級(jí)使用者與8位醫(yī)生參與實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明帶有力反饋增強(qiáng)的空間變量控制器指向精度滿足臨床準(zhǔn)確度要求(<1 mm),并且能夠有效地抑制手部震顫,減少使用者60%的工作量.但其空間變量的動(dòng)態(tài)參數(shù)有待調(diào)節(jié)以獲取更好的系統(tǒng)穩(wěn)定性.此外該方法目前只是虛擬模擬,未來還需要考慮在手術(shù)中與機(jī)械手的安全交互問題.
1.1.2 基于位置的阻抗控制
基于位置的阻抗控制(Position-Based Impedance Control)有2個(gè)控制環(huán)組成,即阻抗控制環(huán)與位置控制環(huán).位置控制環(huán)是對(duì)期望位置、位置補(bǔ)償量及實(shí)際位置3個(gè)位置量數(shù)據(jù)進(jìn)行計(jì)算,使機(jī)器人的實(shí)際位置不斷地接近期望的位置.阻抗控制環(huán)主要是通過計(jì)算期望力與實(shí)際力的差值,獲得位置修正.它通過實(shí)際檢測(cè)機(jī)器人與環(huán)境之間的作用力不斷地調(diào)整目標(biāo)的阻抗參數(shù),然后通過位置控制器控制機(jī)器人的位置,最終實(shí)現(xiàn)力控制.阻抗控制環(huán)的反饋?zhàn)饔昧e的頻域表達(dá)式為
在圖2中,機(jī)器人位置控制指令Xd由參考軌跡Xr與位置修正量e相加獲得,當(dāng)機(jī)器人與環(huán)境接觸時(shí),假設(shè)位置控制環(huán)節(jié)沒有誤差,可知X=Xd,求得位置修正量e=X-Xr.機(jī)器人與環(huán)境無接觸時(shí),反饋?zhàn)饔昧?,則位置修正量也為0.
圖2 基于位置的阻抗控制Fig.2 Position-based impedance control
北京市智能機(jī)器人系統(tǒng)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室[4]設(shè)計(jì)了一種基于位置阻抗的機(jī)械臂抓捕飛行器控制方法,在不測(cè)量接觸力而僅獲得關(guān)節(jié)角度與角速度信息的情況下,通過改進(jìn)現(xiàn)有的關(guān)節(jié)位置閉環(huán)控制,對(duì)機(jī)械臂末端等效剛度控制實(shí)現(xiàn)機(jī)械臂抓捕目標(biāo)過程的柔順控制,避免機(jī)械臂抓捕飛行器過程中,因碰撞沖擊與結(jié)構(gòu)變化時(shí)產(chǎn)生的易碰撞問題.該方法的實(shí)質(zhì)是通過控制不同構(gòu)型下關(guān)節(jié)剛度進(jìn)而保證機(jī)械臂末端剛度為恒定期望值,根據(jù)末端剛度不隨機(jī)械臂構(gòu)型變化而變化的特性,可以將機(jī)械臂抓捕目標(biāo)接觸過程變?yōu)榈刃У膹椈勺枘岫A系統(tǒng).阻抗控制方法相對(duì)于位置保持硬抓捕方法,不但可以減少機(jī)械末端與目標(biāo)之間的碰撞和對(duì)基體位姿的影響,還可以控制機(jī)械臂的構(gòu)型不發(fā)生大變化,保證抓捕過程的安全.
圖3 位/力混合控制Fig.3 Position/force hybrid control
Kitazawa等[5]在救災(zāi)機(jī)械設(shè)計(jì)中應(yīng)用阻抗控制方法設(shè)計(jì)了一種移動(dòng)雙臂機(jī)器人,主要用于對(duì)災(zāi)害造成的巨石等大物體的移動(dòng).該機(jī)器人的阻抗控制流程通過測(cè)量機(jī)械臂末端執(zhí)行器的位置、速度以及接觸力,獲取反饋信息,根據(jù)反饋信息調(diào)節(jié)機(jī)械臂的各個(gè)關(guān)節(jié)實(shí)現(xiàn)機(jī)械阻抗.
單一的阻抗控制方法無論是基于位置控制還是基于力矩的阻抗控制方法,其控制精度過分依賴于環(huán)境信息.針對(duì)阻抗控制在實(shí)際使用中模糊的環(huán)境信息會(huì)造成結(jié)果的較大誤差,難以應(yīng)用于高精度的力控制場(chǎng)所的現(xiàn)象,機(jī)器人專家們提出了引入其他控制策略與阻抗控制策略相結(jié)合的方式,來改善阻抗控制策略,例如自適應(yīng)阻抗控制[6]、模糊自適應(yīng)阻抗控制[7]等.
位/力混合控制策略是指根據(jù)笛卡爾坐標(biāo)系下的雅可比矩陣將機(jī)器人工作空間的力與位置分配到機(jī)器人的各個(gè)關(guān)節(jié),其控制結(jié)構(gòu)如圖3所示.通過選擇矩陣C將機(jī)器人的運(yùn)動(dòng)空間分解為力控制空間與位置控制空間,為每個(gè)關(guān)節(jié)只分配一種控制方式,實(shí)現(xiàn)對(duì)整個(gè)機(jī)器人進(jìn)行力與位置分開控制,兩種控制回路獨(dú)立運(yùn)行互不干擾.但是位/力混合控制需要計(jì)算每個(gè)控制關(guān)節(jié)的關(guān)節(jié)力矩,使計(jì)算量增加,造成控制延時(shí)無法對(duì)機(jī)器人進(jìn)行有效的實(shí)時(shí)控制[8].
目前對(duì)于機(jī)器人的位/力混合控制的研究主要分為以下3個(gè)方面:
1)建立精準(zhǔn)的工作空間的模型:模型的不精確會(huì)導(dǎo)致控制系統(tǒng)無法完成預(yù)期的任務(wù).
2)控制環(huán)境接觸力:目前機(jī)器人工作時(shí),常常會(huì)遇見與環(huán)境或者工作對(duì)象接觸的情況,接觸過程中會(huì)產(chǎn)生相應(yīng)的接觸力.如果不對(duì)接觸力加以控制,會(huì)對(duì)機(jī)器人本體、末端執(zhí)行器以及接觸對(duì)象表面造成相應(yīng)的損害.
3)提高系統(tǒng)的穩(wěn)定性:機(jī)器人系統(tǒng)的穩(wěn)定性是評(píng)價(jià)系統(tǒng)好壞的主要依據(jù),以往的力控制算法常存在系統(tǒng)響應(yīng)不穩(wěn)定與響應(yīng)緩慢的情況,所以需要設(shè)計(jì)控制器提高系統(tǒng)穩(wěn)定性.
隨著對(duì)機(jī)械操作的精細(xì)化與智能化要求提高,僅靠位/力控制方法已無法滿足控制的精度要求.研究者們開始尋求以智能化控制方法來設(shè)計(jì)位/力控制系統(tǒng)中的位置控制與力控制回路的控制器,以此來補(bǔ)償系統(tǒng)的不確定性,提高控制系統(tǒng)性能.近期應(yīng)用于工業(yè)機(jī)器人上的位/力混合控制的研究有:
Mendes等[9]為解決工業(yè)機(jī)器人接觸問題,提出一種力/運(yùn)動(dòng)的混合控制系統(tǒng),在力控制回路中設(shè)計(jì)一種自適應(yīng)模糊控制器來處理機(jī)器人末端執(zhí)行器與物體表面的接觸問題.該系統(tǒng)的特點(diǎn)是利用自適應(yīng)控制律將模糊系統(tǒng)的參數(shù)初始為零,以及不需要建立精確的機(jī)器人的模型.它通過在線學(xué)習(xí)和自適應(yīng)補(bǔ)償,實(shí)現(xiàn)對(duì)機(jī)器人不確定性的補(bǔ)償.該控制方法可以用于攪拌、焊接、去毛刺、拋光和裝配等多個(gè)領(lǐng)域.
Xu等[10]研究了多機(jī)器人協(xié)同操作的位/力混合控制問題.多機(jī)器人協(xié)同操作系統(tǒng)因?yàn)槲锢斫Y(jié)構(gòu)的閉合鏈?zhǔn)沟妹總€(gè)機(jī)械手的位置與速度受到使用工具的限制,而且動(dòng)態(tài)不確實(shí)性讓整個(gè)系統(tǒng)更加復(fù)雜且耦合.因此提出基于位/力混合控制的模糊神經(jīng)網(wǎng)絡(luò)多機(jī)器人協(xié)作控制系統(tǒng).該方法根據(jù)運(yùn)動(dòng)學(xué)與動(dòng)力學(xué)模型,基于位/力混合控制思想設(shè)計(jì)控制策略.該方法的改進(jìn)之處在于用模糊神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)位置控制器用于補(bǔ)償未知?jiǎng)恿W(xué)的非線性部分;引入?yún)f(xié)同控制項(xiàng)來減少機(jī)器人之間的相互影響;力控制器由前饋項(xiàng)與比例控制項(xiàng)組成.最后,他們利用Lyapunov理論證明系統(tǒng)的閉環(huán)穩(wěn)定性,并通過仿真實(shí)驗(yàn)驗(yàn)證了控制策略的可行性.
自適應(yīng)控制的控制過程:獲取控制系統(tǒng)的輸入輸出與相關(guān)的狀態(tài)信息;通過辨識(shí)機(jī)構(gòu)對(duì)系統(tǒng)的相關(guān)參數(shù)與狀態(tài)進(jìn)行估計(jì),并計(jì)算系統(tǒng)的性能指標(biāo);通過對(duì)比計(jì)算出系統(tǒng)當(dāng)前性能與期望性能的偏差值,根據(jù)偏差值做出相應(yīng)的決策,確定當(dāng)前系統(tǒng)的控制策略;根據(jù)確定的控制策略在線調(diào)整系統(tǒng)的輸入信號(hào)與控制器參數(shù),使系統(tǒng)逐漸趨于最優(yōu)狀態(tài).其控制結(jié)構(gòu)如圖4所示.
圖4 自適應(yīng)控制組成Fig.4 Adaptive control composition
從控制系統(tǒng)設(shè)計(jì)的3個(gè)基本指標(biāo)上來分析自適應(yīng)控制系統(tǒng)在機(jī)器人應(yīng)用中存在的問題:
1)在穩(wěn)定性方面,任何自適應(yīng)控制系統(tǒng)都應(yīng)該具有保證全局穩(wěn)定的能力,但目前僅有通過Lyapunov穩(wěn)定定理與Popov超穩(wěn)定理論設(shè)計(jì)的時(shí)不變系統(tǒng)才較為成熟,非線性與隨機(jī)系統(tǒng)并未達(dá)到要求.
2)在收斂性方面,自適應(yīng)算法的自身非線性特點(diǎn)使得收斂理論的建立較為困難,僅有一些簡(jiǎn)單的自適應(yīng)系統(tǒng)可以通過Lyapunov穩(wěn)定性理論來判斷收斂性.此外,收斂結(jié)果的局限性較大而且分析時(shí)假設(shè)的條件太多,只能用于特定環(huán)境,無法用于實(shí)際應(yīng)用中.
3)在性能指標(biāo)方面,由于系統(tǒng)的非線性、時(shí)變性以及不確定的初始條件等因素使得自適應(yīng)控制系統(tǒng)的動(dòng)態(tài)性能難以分析,目前的研究成果較少.
為改善自適應(yīng)控制系統(tǒng)的問題,常將自適應(yīng)控制方法與其他控制方法相結(jié)合,形成自適應(yīng)模糊控制[11]、自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制[12]等方法.利用自適應(yīng)控制可以適應(yīng)控制對(duì)象與擾動(dòng)的動(dòng)態(tài)特征的特性,將自適應(yīng)算法主要用作對(duì)整體系統(tǒng)參數(shù)的設(shè)定調(diào)節(jié)方面,充分發(fā)揮自適應(yīng)控制的獨(dú)特優(yōu)勢(shì).近期自適應(yīng)控制與其他控制相結(jié)合應(yīng)用于工業(yè)機(jī)器人上的代表性研究有:
Hu等[13]針對(duì)存在不確定參數(shù)和外界干擾的機(jī)器人任務(wù)空間軌跡跟蹤問題,提出一種自適應(yīng)反演控制方案.根據(jù)運(yùn)動(dòng)學(xué)與動(dòng)力學(xué)的不確定性與外部干擾,建立相應(yīng)的自適應(yīng)參數(shù)更新律,并通過定義相應(yīng)的李雅普諾夫函數(shù)保證系統(tǒng)的漸近穩(wěn)定性;采用損失方程保證外界擾動(dòng)對(duì)被控對(duì)象L2的輸出增益低于期望值;控制方法對(duì)于被控對(duì)象L2增益的大小沒有限制,可以達(dá)到L2擾動(dòng)衰減的任意水平.通過計(jì)算的數(shù)值結(jié)果證明自適應(yīng)反演控制方法在模型不確定性與時(shí)變擾動(dòng)的情況下跟蹤目標(biāo)軌跡的魯棒性.但該控制方法目前只使用特定的軌跡跟蹤公式進(jìn)行仿真證明了有效性,對(duì)任意軌跡跟蹤有效性需要進(jìn)一步研究.未來應(yīng)用到機(jī)器人姿態(tài)控制實(shí)驗(yàn)還需要能夠在硬件平臺(tái)上數(shù)字化實(shí)現(xiàn).
Yen等[14-15]針對(duì)不確定性和擾動(dòng)的工業(yè)機(jī)器人軌跡跟蹤控制問題,提出一種基于動(dòng)態(tài)結(jié)構(gòu)模糊小波神經(jīng)網(wǎng)絡(luò)系統(tǒng)的魯棒自適應(yīng)控制方法.該控制方案根據(jù)模糊邏輯與后向小波函數(shù),設(shè)計(jì)一種4層結(jié)構(gòu)模糊神經(jīng)網(wǎng)絡(luò)用于補(bǔ)償結(jié)構(gòu)的不確定性與非結(jié)構(gòu)不確定性;采用自適應(yīng)學(xué)習(xí)算法來調(diào)節(jié)動(dòng)態(tài)結(jié)構(gòu)模糊小波神經(jīng)網(wǎng)絡(luò)系統(tǒng)的參數(shù),以此減少逼近誤差值提高系統(tǒng)的控制性能;根據(jù)Lyapunov定理確定自適應(yīng)魯棒控制律,保證系統(tǒng)的全局穩(wěn)定性,使系統(tǒng)跟蹤誤差值控制在期望精度內(nèi).該控制方法通過與小波控制和自適應(yīng)模糊控制實(shí)驗(yàn)對(duì)比后,證明了有效性.
圖5 模糊控制原理框圖Fig.5 Fuzzy control block diagram
于欣波等[16]針對(duì)機(jī)器人動(dòng)力學(xué)模型未知問題,通過設(shè)計(jì)擾動(dòng)觀測(cè)器來補(bǔ)償系統(tǒng)的未知擾動(dòng),提出一種基于擾動(dòng)觀測(cè)器的自適應(yīng)神經(jīng)網(wǎng)絡(luò)跟蹤控制策略.利用RBF神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機(jī)器人不確定模型,選擇適合的增益參數(shù)將系統(tǒng)跟蹤的誤差值降到零域,根據(jù)Lyapunov穩(wěn)定性定理設(shè)計(jì)自適應(yīng)控制律,證明了系統(tǒng)的誤差信號(hào)半全局一致有界性.最后通過仿真證明有效性并應(yīng)用于實(shí)際的機(jī)器人實(shí)驗(yàn)中.
智能化的理念逐漸在控制領(lǐng)域被提出,機(jī)器人研究者們也相繼提出希望將智能化的控制手段應(yīng)用到機(jī)器人控制中,實(shí)現(xiàn)機(jī)器人的智能力控制.智能力控制指的是利用智能控制技術(shù)處理機(jī)器人傳感器反饋的信息,使機(jī)器人能夠在任意的操作環(huán)境中在無人干擾時(shí)實(shí)現(xiàn)自我調(diào)節(jié)與自適應(yīng),并且不斷地自我學(xué)習(xí)改進(jìn)后的執(zhí)行結(jié)果,能夠?qū)崿F(xiàn)整個(gè)作業(yè)過程的準(zhǔn)確而又快速的穩(wěn)定控制.
智能控制策略中存在著不同的控制系統(tǒng),目前主流的智能控制策略大致為:模糊邏輯控制系統(tǒng)、神經(jīng)網(wǎng)絡(luò)控制系統(tǒng)、優(yōu)化算法控制系統(tǒng)等.
模糊邏輯控制是以模糊集理論、模糊語言變量和模糊邏輯推理為基礎(chǔ)的一種智能控制方法,它是從行為上模仿人的模糊推理和決策過程的一種智能控制方法.該方法首先將操作人員或?qū)<医?jīng)驗(yàn)編成模糊規(guī)則,然后將來自傳感器的實(shí)時(shí)信號(hào)模糊化,將模糊化后的信號(hào)作為模糊規(guī)則的輸入,完成模糊推理,將推理后得到的輸出量加到執(zhí)行器上.模糊控制原理如圖5所示.
Song等[17]研究單連桿柔性關(guān)節(jié)機(jī)器人系統(tǒng)輸入飽和跟蹤問題,對(duì)動(dòng)態(tài)表面控制方法進(jìn)行改進(jìn),設(shè)計(jì)了自適應(yīng)模糊控制動(dòng)態(tài)表面控制方法.該方法主要采用平滑函數(shù)與中值定理處理系統(tǒng)輸入飽和的問題,基于帶輔助一階濾波器設(shè)計(jì)自適應(yīng)動(dòng)態(tài)表面控制器解決系統(tǒng)復(fù)雜性激增的問題.該方案能夠保證閉環(huán)系統(tǒng)中所有信號(hào)是半全局一致有界.相比于原有的動(dòng)態(tài)表面控制方法,改進(jìn)的自適應(yīng)模糊動(dòng)態(tài)表面控制方法在輸入飽和的情況下,系統(tǒng)輸出能夠更好地對(duì)目標(biāo)軌跡進(jìn)行跟蹤,并且能夠極大地減少計(jì)算量,提高系統(tǒng)響應(yīng)速度.但是該方法存在一定的誤差會(huì)限制系統(tǒng)的性能.
目前模糊控制與其他控制方法結(jié)合,有效地改善了控制效果并開始廣泛應(yīng)用于機(jī)器人的各個(gè)領(lǐng)域,例如模糊PID用于手術(shù)機(jī)器人[18-19]、模糊神經(jīng)網(wǎng)絡(luò)用于機(jī)器人軌跡規(guī)劃[20]、自適應(yīng)模糊控制用于機(jī)器人時(shí)滯系統(tǒng)[21]等.
神經(jīng)網(wǎng)絡(luò)作為多學(xué)科交叉融合的前沿研究技術(shù),具有充分逼近任意復(fù)雜非線性能力、并行分布處理能力、自適應(yīng)能力、自學(xué)習(xí)能力、較強(qiáng)的魯棒性和容錯(cuò)能力等.學(xué)者們將神經(jīng)網(wǎng)絡(luò)與機(jī)器人控制領(lǐng)域的控制方法結(jié)合,對(duì)原有的控制方法進(jìn)行改進(jìn)獲得了更好的控制效果.
2.2.1 經(jīng)典神經(jīng)網(wǎng)絡(luò)的控制方法
經(jīng)典的神經(jīng)網(wǎng)絡(luò)控制方法有BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等.BP神經(jīng)網(wǎng)絡(luò)全稱為反向傳播(Back Propagation)神經(jīng)網(wǎng)絡(luò),它是一種多層前饋神經(jīng)網(wǎng)絡(luò).BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是具有好的非線性映射能力、自學(xué)習(xí)與自適應(yīng)能力、較好的泛化能力與容錯(cuò)能力.但是BP神經(jīng)網(wǎng)絡(luò)對(duì)于初始網(wǎng)絡(luò)權(quán)重非常敏感,往往會(huì)出現(xiàn)局部極小化的問題.BP神經(jīng)網(wǎng)絡(luò)算法本質(zhì)是梯度下降算法,而且優(yōu)化的函數(shù)比較復(fù)雜,故收斂的速度慢.另外,BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇不一,而網(wǎng)絡(luò)結(jié)構(gòu)直接影響網(wǎng)絡(luò)的逼近能力及推廣性質(zhì).
Yuan等[22]設(shè)計(jì)了一種改進(jìn)BP神經(jīng)網(wǎng)絡(luò)PID控制算法,用于多自由度工業(yè)機(jī)器人運(yùn)動(dòng)控制系統(tǒng),使控制器能夠更好地控制復(fù)雜運(yùn)動(dòng)過程,其結(jié)構(gòu)如圖6所示.該方法利用神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)能力離線識(shí)別控制對(duì)象模型,修正其網(wǎng)絡(luò)權(quán)值,逐步適應(yīng)對(duì)象的特性.當(dāng)學(xué)習(xí)與被控對(duì)象保持一致時(shí),NNPID將成為一個(gè)在線控制器.在此過程中,NNI利用BP神經(jīng)網(wǎng)絡(luò)的誤差反向傳播特性,將偏差e1返回到訓(xùn)練算法中,從而校正自己的權(quán)值.NNPID根據(jù)誤差信號(hào)e2來修正它的網(wǎng)絡(luò)權(quán)值.經(jīng)過幾次學(xué)習(xí)后,NNPID將逐步跟上系統(tǒng)的變化.但是在BP神經(jīng)網(wǎng)絡(luò)中通過試錯(cuò)學(xué)習(xí)來獲得的初始權(quán)值,難以獲得PID控制器的最優(yōu)參數(shù).所以Yuan等[22]將粒子群優(yōu)化算法引入到控制器中,用于對(duì)控制器的參數(shù)進(jìn)行優(yōu)化,使PID具有更好的控制效果,并通過實(shí)驗(yàn)證明了改進(jìn)的神經(jīng)網(wǎng)絡(luò)PID控制機(jī)器人系統(tǒng)能夠快速地跟蹤目標(biāo),具有很好的穩(wěn)態(tài)精度,克服了傳統(tǒng)PID控制方法的不足.
圖6 前向BP神經(jīng)網(wǎng)絡(luò)PID控制算法結(jié)構(gòu)Fig.6 PID control algorithm structure of forward BP neural network
RBF神經(jīng)網(wǎng)絡(luò)全稱為徑向基函數(shù)(Radical Basis Function)神經(jīng)網(wǎng)絡(luò),是一種三層的前向神經(jīng)網(wǎng)絡(luò)模型.徑向基函數(shù)是對(duì)中心點(diǎn)徑向?qū)ΨQ且衰減的非負(fù)線性函數(shù),是一種局部響應(yīng)函數(shù).RBF神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是:結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練簡(jiǎn)潔而且能夠逼近任意非線性函數(shù);網(wǎng)絡(luò)連接權(quán)值與輸出呈線性關(guān)系;分類能力好且學(xué)習(xí)過程收斂速度快.缺點(diǎn)是:過分依賴于數(shù)據(jù),數(shù)據(jù)不充分就無法進(jìn)行工作;將特征以及推理都轉(zhuǎn)化為數(shù)據(jù)計(jì)算,易造成信息丟失;樣本數(shù)據(jù)選擇困難.目前應(yīng)用于機(jī)器人的RBF神經(jīng)網(wǎng)絡(luò)算法大部分與滑??刂芠23]和模糊控制[24]算法相結(jié)合.
Jung[25]提出一種基于RBF神經(jīng)網(wǎng)絡(luò)的滑??刂聘倪M(jìn)方法,用以處理滑??刂破鞣蔷€性函數(shù)增益選取,以及具體應(yīng)用的三連桿機(jī)械臂的不確定性問題.滑模控制器是一種典型的非線性控制器,非線性函數(shù)增益的選擇對(duì)系統(tǒng)的性能和穩(wěn)定性起重要的作用,所以選取恰當(dāng)?shù)脑鲆嬷的軌颢@得更好的控制效果.Jung[25]提出的基于RBF神經(jīng)網(wǎng)絡(luò)的改進(jìn)方法就是利用神經(jīng)網(wǎng)絡(luò)補(bǔ)償器來幫助滑??刂破鬟x取適當(dāng)?shù)脑鲆嬷?能夠更智能地處理系統(tǒng)穩(wěn)定性和性能,通過仿真對(duì)比實(shí)驗(yàn),證明神經(jīng)滑模控制方法相比純滑??刂品椒?系統(tǒng)的性能更好、穩(wěn)定性更高.
2.2.2 深度強(qiáng)化學(xué)習(xí)
隨著人工智能領(lǐng)域不斷深入研究,相應(yīng)的機(jī)器人智能控制方法也得到了快速發(fā)展.目前基于深度網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)成為了研究的熱點(diǎn)之一.深度強(qiáng)化學(xué)習(xí)就是利用神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性擬合能力和識(shí)別任意復(fù)雜非線性關(guān)系的能力,用神經(jīng)網(wǎng)絡(luò)作為agent,獲得環(huán)境最大的獎(jiǎng)勵(lì),使整個(gè)系統(tǒng)的運(yùn)行性能達(dá)到最佳狀態(tài).深度強(qiáng)化學(xué)習(xí)誕生后,因?yàn)槠鋸?qiáng)大的學(xué)習(xí)與適應(yīng)能力被廣泛地應(yīng)用于機(jī)器人[26-27]、優(yōu)化控制調(diào)度[28-29]、通信[30]、自動(dòng)駕駛[31-32]、視頻游戲[33]等多個(gè)領(lǐng)域.
深度強(qiáng)化學(xué)習(xí)(Deep Q-Learning)的最基本的算法思路來源于Q-Learning,但不同之處在于它的Q值不是直接通過狀態(tài)值與動(dòng)作值來計(jì)算的,而是通過Q網(wǎng)絡(luò)即神經(jīng)網(wǎng)絡(luò)來計(jì)算的,Q網(wǎng)絡(luò)可以為DNN、CNN或者是RNN.根據(jù)強(qiáng)化學(xué)習(xí)算法可將深度強(qiáng)化學(xué)習(xí)的算法大致分為3類:基于價(jià)值學(xué)習(xí)的算法、基于策略學(xué)習(xí)的算法和混合學(xué)習(xí)算法.深度強(qiáng)化學(xué)習(xí)算法各有優(yōu)劣,各算法的總結(jié)如表1所示,表中介紹了各算法的改進(jìn)之處,以及算法的相關(guān)文獻(xiàn).因各深度強(qiáng)化學(xué)習(xí)算法較多且應(yīng)用范圍廣泛,下面主要介紹目前應(yīng)用于機(jī)器人控制領(lǐng)域的幾個(gè)實(shí)例.
Luo等[40]將深度強(qiáng)化學(xué)習(xí)控制方法運(yùn)用到機(jī)器人裝配任務(wù)中,完成了傳統(tǒng)控制方法無法實(shí)現(xiàn)的任務(wù):將一個(gè)剛性樁插入到一個(gè)直徑較小的可變形孔洞中.該方法不直接對(duì)關(guān)節(jié)扭矩進(jìn)行控制,而是利用機(jī)器人手腕傳感器的導(dǎo)納控制和力與力矩信號(hào).該方法能夠使機(jī)器人快速學(xué)習(xí)裝配任務(wù),對(duì)水平變化具有較好的魯棒性.當(dāng)樁柱相對(duì)靠近孔洞時(shí),機(jī)器人仍具有良好的控制效果.Luo等[40]還提出了未來改進(jìn)的方向:通過增加一個(gè)視覺系統(tǒng),可以更好地將機(jī)器人引導(dǎo)到孔洞附近,增加機(jī)器人在初始位置的靈活性.
隨著機(jī)械加工精密化程度提高,毫米級(jí)目標(biāo)的高精度自動(dòng)裝配技術(shù)成為研究重點(diǎn),傳統(tǒng)的精密裝配方法太過依賴于實(shí)際機(jī)器人系統(tǒng)的編程,需要復(fù)雜的參數(shù)整定工作.Wu等[41]通過對(duì)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)先級(jí)劃分,實(shí)現(xiàn)了精確插入技能學(xué)習(xí)的強(qiáng)化學(xué)習(xí).該方法通過LSTM神經(jīng)網(wǎng)絡(luò)層來近似Dueling DQN框架中的Q函數(shù),通過演示的數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,之后通過其初始策略與環(huán)境進(jìn)行交互來加速機(jī)器人的技能學(xué)習(xí),實(shí)現(xiàn)了基于瞬時(shí)獎(jiǎng)賞的插入步長(zhǎng)調(diào)制.
機(jī)器人手臂在進(jìn)行抓取任務(wù)時(shí),常會(huì)遇到障礙物,如何控制機(jī)器人末端執(zhí)行器進(jìn)行避障運(yùn)動(dòng)是整個(gè)抓取任務(wù)的重點(diǎn).由于機(jī)器人的非線性,通常的控制方法常遇到提前收斂或收斂時(shí)間過長(zhǎng)的情況.為克服機(jī)器人運(yùn)動(dòng)的收斂問題,保證關(guān)節(jié)運(yùn)動(dòng)的連續(xù)性和穩(wěn)定性,Wen等[39]設(shè)計(jì)了一種基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的深度學(xué)習(xí)避障算法.算法主要利用深度神經(jīng)網(wǎng)絡(luò)能夠識(shí)別輸入輸出的能力將其作為非線性函數(shù),用強(qiáng)化學(xué)習(xí)訓(xùn)練出策略,設(shè)立一種新的獎(jiǎng)勵(lì)來處理有障礙的環(huán)境.該算法最終解決了高維狀態(tài)輸入和多返回值的收斂問題,實(shí)現(xiàn)了機(jī)器人手臂抓取運(yùn)動(dòng)的避障.
優(yōu)化控制方法是指設(shè)計(jì)一個(gè)控制系統(tǒng),在一定的約束條件下能夠使給定的被控系統(tǒng)性能指標(biāo)取得最大或最小值的方法.在實(shí)際運(yùn)行的過程中,給定的約束條件不能包含所有的情況,所以優(yōu)化控制不能達(dá)到完美,難以做到最優(yōu)控制.在機(jī)器人領(lǐng)域中應(yīng)用的優(yōu)化控制方法主要采用遺傳優(yōu)化算法[42-43]、基于群體智能的蟻群算法[44]、粒子群算法[45-46]等以及基于萬有引力定律和牛頓第二定律的引力搜索算法(Gravitational Search Algorithm,GSA).這些智能算法均具有全局尋優(yōu)的能力,但每次需求的解可能都不同而且算法運(yùn)行的時(shí)間不同.每個(gè)算法都有適用的優(yōu)化問題,根據(jù)各自的算法特點(diǎn)解決機(jī)器人控制的不同問題.各優(yōu)化算法應(yīng)用優(yōu)缺點(diǎn)對(duì)比如表2所示.
表1 深度強(qiáng)化學(xué)習(xí)算法總結(jié)
表2 優(yōu)化算法對(duì)比
Faieghi等[47]針對(duì)工業(yè)機(jī)器人在實(shí)際應(yīng)用中的不確定性與擾動(dòng)問題,設(shè)計(jì)了一種主動(dòng)滑??刂破?該控制器利用李雅普諾夫函數(shù)得出自適應(yīng)增益,并且采用粒子群優(yōu)化算法確定最優(yōu)控制參數(shù),使控制器在不影響系統(tǒng)穩(wěn)定性的前提下能夠到達(dá)跟蹤的零誤差.通過仿真實(shí)驗(yàn)證明主動(dòng)滑模控制器能夠在存在未知的外部干擾和系統(tǒng)不確定性情況下實(shí)現(xiàn)魯棒軌跡跟蹤.
針對(duì)機(jī)器人本身的非線性與復(fù)雜性使得機(jī)器人軌跡跟蹤的控制效果降低,傳統(tǒng)的工業(yè)機(jī)器人滑??刂撇荒軡M足現(xiàn)有的控制需求的問題,吳方圓等[48]提出了一種基于粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階滑模變結(jié)構(gòu)控制的改進(jìn)方法.該方法先通過粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)識(shí)別機(jī)器人的模型,訓(xùn)練出最相關(guān)的系統(tǒng)控制參數(shù)模型,再根據(jù)分?jǐn)?shù)階理論與滑模變結(jié)構(gòu)理論設(shè)計(jì)控制器,運(yùn)用到整個(gè)機(jī)器人的軌跡跟蹤控制系統(tǒng)中.該方法通過仿真實(shí)驗(yàn)證明,對(duì)于系統(tǒng)的穩(wěn)定性與控制精度方法有良好的改進(jìn)效果,但是由于仿真只采用簡(jiǎn)單的折線與圓弧特定的軌跡路徑,對(duì)于控制方法是否能用于復(fù)雜軌跡跟蹤還需進(jìn)一步優(yōu)化.Aldair等[49]針對(duì)n連桿兩足步行機(jī)器人具有較高的非線性和不確定性參數(shù)情況,提出了一種基于蟻群算法的自適應(yīng)模糊控制器,采用蟻群優(yōu)化算法對(duì)模糊控制器的輸出隸屬函數(shù)進(jìn)行優(yōu)化,獲取最優(yōu)的參數(shù),以消除步行機(jī)器人在粗糙表面運(yùn)動(dòng)時(shí)產(chǎn)生的抖振現(xiàn)象.
本文闡述了機(jī)器人力控制的意義與控制方法的起源與發(fā)展,對(duì)力控制方法的原理進(jìn)行簡(jiǎn)要介紹并列舉相關(guān)應(yīng)用實(shí)例.本文介紹的機(jī)器人力控制策略主要包括傳統(tǒng)控制方法與智能控制方法.傳統(tǒng)控制方法包括阻抗控制方法、位/力混合控制方法、自適應(yīng)控制方法.阻抗控制方法主要從力控制與位置控制兩個(gè)方面進(jìn)行敘述,根據(jù)兩者的控制結(jié)構(gòu)圖介紹各自的控制原理,并列舉近期應(yīng)用于機(jī)器人領(lǐng)域的控制實(shí)例.位/力混合控制方法與自適應(yīng)控制方法根據(jù)各自的控制框圖介紹其控制流程,總結(jié)兩種控制方法的優(yōu)缺點(diǎn)與應(yīng)用的發(fā)展方向.智能控制方法包括模糊邏輯控制方法、神經(jīng)網(wǎng)絡(luò)控制方法與優(yōu)化算法控制方法.智能控制方法主要是對(duì)神經(jīng)網(wǎng)絡(luò)控制方法進(jìn)行介紹,主要介紹基于當(dāng)前經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型的控制方法,包括反向傳播(BP)神經(jīng)網(wǎng)絡(luò)、徑向基(RBF)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等.對(duì)當(dāng)前最為熱門的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行介紹總結(jié),梳理各個(gè)算法承接順序,列舉深度強(qiáng)化學(xué)習(xí)算法在機(jī)器人控制領(lǐng)域的應(yīng)用.從上述這些控制方法的應(yīng)用中不難發(fā)現(xiàn),如今研究者們大力鉆研機(jī)器人智能控制方法,將人工智能領(lǐng)域的相關(guān)算法運(yùn)用于機(jī)器人控制來不斷提高機(jī)器人自動(dòng)化與智能化水平,而這也將是未來機(jī)器人控制應(yīng)用的發(fā)展趨勢(shì)所在.
機(jī)器人領(lǐng)域的不斷拓寬,對(duì)機(jī)器人的力控制提出了新的要求,尤其是一些特殊的應(yīng)用場(chǎng)景,要求機(jī)器人具有高精度性和高穩(wěn)定性.對(duì)機(jī)器人控制要求的增加促進(jìn)著控制策略的發(fā)展.隨著控制理論不斷深入研究,為適應(yīng)新的控制要求需要對(duì)力控制方法進(jìn)行不斷創(chuàng)新與改進(jìn).未來機(jī)器人力控制方法可能從以下的三個(gè)方向發(fā)展:
1)智能控制方法的自我延伸發(fā)展.初始的控制算法在應(yīng)用過程中,通過對(duì)理論深入研究,發(fā)現(xiàn)問題所在進(jìn)而對(duì)控制算法進(jìn)行優(yōu)化改進(jìn).例如模糊邏輯控制為提高運(yùn)行速度和尋優(yōu)結(jié)果,發(fā)展多輸入多輸出系統(tǒng)的模糊控制理論,遺傳算法改進(jìn)編碼方式,引入自適應(yīng)算子,利用混沌理論優(yōu)化初始種群等.
2)傳統(tǒng)的控制算法與智能控制算法相結(jié)合,增強(qiáng)傳統(tǒng)控制方法的智能化,提高控制效果.例如模糊阻抗算法、模糊PID等.目前算法之間的結(jié)合是粗淺的,智能控制算法只是被用來作為傳統(tǒng)控制算法的補(bǔ)償手段,未將智能控制算法的優(yōu)勢(shì)發(fā)揮出來.未來需考慮如何更加合理地融合算法,讓算法之間能夠完美地搭配使用.
3)智能算法與智能算法之間的結(jié)合.根據(jù)智能算法自身的優(yōu)缺點(diǎn),利用其他算法來對(duì)自身劣勢(shì)進(jìn)行彌補(bǔ),相互結(jié)合、揚(yáng)長(zhǎng)避短形成更加智能化的控制方法.例如深度強(qiáng)化學(xué)習(xí),將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合,相互補(bǔ)充.