董 潔,顧雅珍
(赤峰學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,赤峰 024000)
隨著時(shí)代的發(fā)展,航天航空以及各種高危行業(yè)均使用機(jī)械臂進(jìn)行作業(yè)[1],以此降低工作人員的人身安全威脅。但由于機(jī)械臂所處的環(huán)境均是核環(huán)境或者航空環(huán)境等十分復(fù)雜的環(huán)境[2],導(dǎo)致機(jī)械臂出現(xiàn)故障后無法依靠人員進(jìn)行維修,這種情況下機(jī)械臂仍需帶故障進(jìn)行作業(yè),針對(duì)這種情況國內(nèi)外專家提出容錯(cuò)控制問題。自1980年開始國內(nèi)外針對(duì)航天事業(yè)中機(jī)械臂的容錯(cuò)問題進(jìn)行研究[3],根據(jù)機(jī)械臂的靈活等特性快速發(fā)展機(jī)械臂的容錯(cuò)問題。隨著機(jī)械臂的應(yīng)用范圍擴(kuò)大,如何保證在出現(xiàn)故障時(shí)機(jī)械臂仍可穩(wěn)定運(yùn)行是刻不容緩需要解決的問題,為進(jìn)一步深入研究機(jī)械臂的容錯(cuò)問題,現(xiàn)利用深度學(xué)習(xí)算法對(duì)機(jī)械臂的容錯(cuò)問題展開研究。
王立敏[4]等人首先構(gòu)建機(jī)器臂狀態(tài)模型,并根據(jù)時(shí)滯情況進(jìn)行轉(zhuǎn)換,其次將狀態(tài)模型轉(zhuǎn)換成帶有狀態(tài)以及輸出誤差的空間模型,最后利用切換系統(tǒng)模型進(jìn)行描述,并在其中添加二次目標(biāo)函數(shù),在最優(yōu)控制理論的基礎(chǔ)上完成機(jī)械臂的容錯(cuò)控制。趙劍飛[5]等人首先構(gòu)建出機(jī)械臂的同步電機(jī)數(shù)學(xué)模型,并根據(jù)電力模型得出機(jī)械臂的控制方案,進(jìn)而分析出機(jī)械臂的整體容錯(cuò)控制方法,針對(duì)效率問題利用模糊控制算法完成轉(zhuǎn)矩實(shí)現(xiàn)容錯(cuò)控制的優(yōu)化。
以上兩種方法在對(duì)機(jī)械臂進(jìn)行容錯(cuò)控制前沒有獲取機(jī)械臂的參數(shù)矢量,導(dǎo)致在實(shí)際控制過程中未知數(shù)據(jù)過多,無法保證機(jī)械臂的容錯(cuò)控制效率和精度,存在容錯(cuò)控制整體性能差、平均獎(jiǎng)勵(lì)值低和抗干擾能力差的問題。為了解決上述方法中存在的問題,提出基于改進(jìn)深度學(xué)習(xí)的多自由度機(jī)械臂容錯(cuò)控制研究方法。
機(jī)械臂容錯(cuò)控制的主要意義就是保證機(jī)械臂出現(xiàn)故障時(shí)仍可以穩(wěn)定地執(zhí)行工作任務(wù),為提高容錯(cuò)控制可靠性,需提前對(duì)機(jī)械臂的故障進(jìn)行檢測(cè),以此實(shí)現(xiàn)機(jī)械臂的容錯(cuò)控制。
針對(duì)機(jī)械臂的故障檢測(cè)和容錯(cuò)控制均需要自適應(yīng)濾波器的幫助,在選取濾波器的過程中發(fā)現(xiàn)基于LMS算法的自適應(yīng)濾波器不僅有計(jì)算量小和結(jié)構(gòu)簡單等優(yōu)點(diǎn),還有抗敏感性的特點(diǎn),十分適合機(jī)械臂容錯(cuò)控制,因此選取自適應(yīng)濾波器對(duì)機(jī)械臂進(jìn)行處理。
根據(jù)機(jī)械臂傳感器以及推進(jìn)器以往的故障狀態(tài)得出機(jī)械臂的狀態(tài)方程式為:
其中,C代表機(jī)械臂的實(shí)時(shí)狀態(tài)矩陣,D代表機(jī)械臂的控制矩陣,DF代表機(jī)械臂中推進(jìn)器故障的控制矩陣,A代表機(jī)械臂傳感器的故障矩陣,Z代表機(jī)械臂的整體狀態(tài)變量,S代表機(jī)械臂中傳感器的輸出,u代表機(jī)械臂的控制信號(hào),fa代表非線性項(xiàng)。
將其進(jìn)行離散化處理后即可得出機(jī)械臂的狀態(tài)方程,其表達(dá)式為:
式中,Zk-1和Sk均代表離散化處理后的狀態(tài)變量以及輸出,φ代表控制變量系數(shù),Γ代表離散化處理后的參數(shù),Rk代表離散化處理后的非線性項(xiàng),βk代表離散化處理后的故障控制矩陣,L和Tk均代表矩陣系數(shù)。
根據(jù)機(jī)械臂的狀態(tài)方程,構(gòu)建出機(jī)械臂的等效模型,不斷訓(xùn)練濾波器模型,得到機(jī)械臂模型的參數(shù)矢量,首先計(jì)算出機(jī)械臂的輸出信號(hào),其表達(dá)式為:
式中,g(k)代表機(jī)械臂中自適用濾波器的輸出,N代表濾波器的階數(shù)。
進(jìn)而得出差值信號(hào)的計(jì)算公式為:
式中,q(k)代表自適應(yīng)濾波器在對(duì)故障進(jìn)行跟蹤控制過程中的狀態(tài)誤差,p(k)代表機(jī)械臂傳感器的狀態(tài)。則模型中的參數(shù)經(jīng)過不斷訓(xùn)練后得出參數(shù)矢量為:
式中,Hk+1代表等效模型的參數(shù)矢量,o(k)代表時(shí)間序列。
在機(jī)械臂系統(tǒng)中,當(dāng)濾波器的階數(shù)越大其跟蹤精度也就越高,但也會(huì)增加相應(yīng)計(jì)算量,與此同時(shí)機(jī)械臂運(yùn)行的實(shí)時(shí)性也會(huì)下降,為保證機(jī)械臂容錯(cuò)控制效率,在選取階數(shù)N時(shí)必須考慮機(jī)械臂整體的運(yùn)行精度以及實(shí)時(shí)性。
將機(jī)械臂容錯(cuò)控制中的控制信號(hào)以及傳感器輸出結(jié)果利用自適應(yīng)濾波器進(jìn)行訓(xùn)練,不斷更新出控制系統(tǒng)的參數(shù)數(shù)量,進(jìn)而不斷更新控制數(shù)據(jù),保證容錯(cuò)控制的實(shí)時(shí)性,提高機(jī)械臂容錯(cuò)控制性能。
在對(duì)機(jī)械臂進(jìn)行容錯(cuò)控制過程中需要利用大量數(shù)據(jù)支撐,通過上述操作計(jì)算出大量原本不確定的參數(shù)矢量。
機(jī)器學(xué)習(xí)中的深度學(xué)習(xí)是一種具有統(tǒng)計(jì)學(xué)意義的算法,通過深度學(xué)習(xí)完成容錯(cuò)控制可輕易獲取大量相關(guān)數(shù)據(jù),且數(shù)據(jù)均是可利用且完全不重復(fù)的數(shù)據(jù),所以在對(duì)多自由度機(jī)械臂進(jìn)行容錯(cuò)控制前可構(gòu)建神經(jīng)網(wǎng)絡(luò)模型加強(qiáng)整體可靠性。
BP神經(jīng)網(wǎng)絡(luò)是現(xiàn)如今應(yīng)用范圍最廣,也是最完善的一種深度學(xué)習(xí)算法,其核心是將機(jī)器設(shè)備的信號(hào)進(jìn)行正向傳播的同時(shí)將誤差進(jìn)行反向逆?zhèn)鞑?,機(jī)械臂信號(hào)分別經(jīng)過神經(jīng)網(wǎng)絡(luò)的輸入層和隱含層進(jìn)行傳播,其中神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)圖如圖1所示。
圖1 基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型
根據(jù)神經(jīng)網(wǎng)絡(luò)模型將機(jī)械臂運(yùn)動(dòng)信號(hào)從輸入層輸入,在隱含層中對(duì)數(shù)據(jù)進(jìn)行權(quán)重計(jì)算以及激活函數(shù)等處理后得出輸出結(jié)果。
假設(shè)機(jī)械臂目前的狀態(tài)為xi,根據(jù)神經(jīng)網(wǎng)絡(luò)得出改進(jìn)深度學(xué)習(xí)的目標(biāo)函數(shù)表達(dá)式為:
式中,ai代表機(jī)械臂在訓(xùn)練過程中的行為,代表機(jī)械臂運(yùn)行軌跡的回報(bào)。
深度學(xué)習(xí)的目的就是在全局中提取出最優(yōu)參數(shù),將目標(biāo)函數(shù)最大化,將目標(biāo)函數(shù)添加到神經(jīng)網(wǎng)絡(luò)中即可得出最優(yōu)參數(shù)。
根據(jù)自適應(yīng)濾波器得出機(jī)械臂出現(xiàn)故障后的實(shí)際狀態(tài)空間模型,其表達(dá)式為:
式中,a表示機(jī)械臂的狀態(tài)向量,b表示機(jī)械臂子系統(tǒng)的輸出,fx表示機(jī)械臂故障的函數(shù)項(xiàng),f(a)和h(a)均代表Lipschitz的連續(xù)函數(shù),其表達(dá)式分別為:
式中,β(t-Tf)代表機(jī)械臂發(fā)生故障時(shí)的開關(guān)函數(shù),ψ(p,·p,u)代表機(jī)械臂的故障函數(shù),p代表機(jī)械臂的理想關(guān)節(jié)角,·p 代表機(jī)械臂的理想關(guān)節(jié)角速度。
根據(jù)以上參數(shù)和公式得出機(jī)器臂控制目標(biāo)的性能指標(biāo)函數(shù)公式,其表達(dá)式為:
式中,r(τ)代表機(jī)械臂運(yùn)動(dòng)軌跡的跟蹤誤差,e(r,u)代表效應(yīng)函數(shù),x代表機(jī)械臂執(zhí)行器的故障預(yù)測(cè)值,ρ和δ均代表常數(shù)項(xiàng)。
假設(shè)機(jī)器臂的理想運(yùn)行軌跡為:
式中,ui代表機(jī)械臂的理性控制。
將機(jī)械臂的運(yùn)行估計(jì)跟蹤誤差進(jìn)行求導(dǎo)后得出下列公式:
式中,u代表機(jī)械臂的整體容錯(cuò)控制器。
由于控制器u是由ui以及最優(yōu)反饋控制器組成,進(jìn)而得出控制器的計(jì)算公式為:
式中,ue代表機(jī)械臂的最優(yōu)反饋控制器。
將ue添加到式(11)后即可保證機(jī)械臂容錯(cuò)控制收斂到最穩(wěn)定的狀態(tài)
此時(shí)系統(tǒng)性能子函數(shù)就得到了優(yōu)化,同時(shí)生成了一組容許控制序列φ(Ω)。
根據(jù)優(yōu)化性能指標(biāo)可將容錯(cuò)控制問題轉(zhuǎn)換成提取最優(yōu)反饋控制ue問題,進(jìn)而保證跟蹤誤差以及性能指標(biāo)函數(shù)的代價(jià)最小。
假設(shè)機(jī)械臂整體性能指標(biāo)是連續(xù)可微的,此時(shí)性能指標(biāo)函數(shù)的最小形式就是非線性李雅普諾夫,從而得出哈密頓函數(shù)表達(dá)式為:
式中,ΔV(e)代表性能指標(biāo)關(guān)于最優(yōu)控制的偏導(dǎo)數(shù)。
則最優(yōu)性能指標(biāo)函數(shù)表達(dá)式為:
在實(shí)際容錯(cuò)控制過程中L*(e)需要滿足下列要求:
當(dāng)最優(yōu)性能指標(biāo)函數(shù)滿足上式即可生成最優(yōu)反饋容錯(cuò)控制公式,其表達(dá)式為:
式中,R代表機(jī)械臂所有故障項(xiàng)的集合。
為了驗(yàn)證基于改進(jìn)深度學(xué)習(xí)的多自由度機(jī)械臂容錯(cuò)控制研究方法的整體有效性,現(xiàn)對(duì)所提方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法進(jìn)行容錯(cuò)控制整體性能、平均獎(jiǎng)勵(lì)值和抗干擾能力的測(cè)試。測(cè)試用機(jī)械臂為S6H6多自由度機(jī)械臂,其結(jié)構(gòu)如圖2所示。
圖2 多自由度機(jī)械臂結(jié)構(gòu)
機(jī)械臂參數(shù)如表1所示。
表1 機(jī)械臂參數(shù)
由于機(jī)械臂的使用環(huán)境不利于機(jī)械臂的維修,且針對(duì)機(jī)械臂的維修目前很難實(shí)現(xiàn),為將機(jī)械臂的應(yīng)用壽命延長,只能在其中添加容錯(cuò)控制,機(jī)械臂容錯(cuò)控制的性能直接決定機(jī)械臂的使用效率。
為比較三種方法的性能優(yōu)劣,隨機(jī)選取一多自由度機(jī)械臂,利用三種方法對(duì)該機(jī)械臂進(jìn)行容錯(cuò)控制,判斷每種方法下實(shí)際運(yùn)行角度與理想運(yùn)行角度之間的差異,結(jié)果如圖3所示,根據(jù)結(jié)果可知,所提方法的運(yùn)行角度與期望角度完全相同,說明該方法的容錯(cuò)控制性能強(qiáng),其余兩種方法與理想角度之間均存在不同程度的差異。
圖3 三種方法的機(jī)械臂運(yùn)動(dòng)位置
在太空環(huán)境下,機(jī)械臂的速度也會(huì)影響機(jī)械臂的運(yùn)行能力,為保證所提方法的可信度,在同一環(huán)境下比較三種方法與期望速度之間的差異,結(jié)果如圖4所示。根據(jù)結(jié)果可知,與期望速度最接近的仍是所提方法,因?yàn)樗岱椒ㄔ趯?duì)多自由度機(jī)械臂進(jìn)行容錯(cuò)控制前構(gòu)建自適應(yīng)度模型,得出機(jī)械臂系統(tǒng)中的參數(shù)矢量,保證容錯(cuò)控制的可靠性,以此加強(qiáng)容錯(cuò)控制的整體性能。
圖4 三種方法的實(shí)際運(yùn)行速度
多自由度機(jī)械臂在進(jìn)行容錯(cuò)控制過程中可將容錯(cuò)控制的訓(xùn)練結(jié)果視為輸出獎(jiǎng)勵(lì)值,獎(jiǎng)勵(lì)值越高說明機(jī)械臂的容錯(cuò)控制精度越高,將所有獎(jiǎng)勵(lì)值進(jìn)行綜合計(jì)算后得出每種方法的平均獎(jiǎng)勵(lì)值,平均降低值越高說明方法的控制精度越高。
在同一環(huán)境下通過三種方法分別對(duì)某一多自由度機(jī)械臂進(jìn)行容錯(cuò)控制,得出每種方法下的平均獎(jiǎng)勵(lì)值,其結(jié)果如下所示。
根據(jù)圖5可知,隨著訓(xùn)練次數(shù)的增多,容錯(cuò)控制的平均獎(jiǎng)勵(lì)值也隨之增高,其精度也逐漸升高,在剛開始訓(xùn)練時(shí),三種方法的平均獎(jiǎng)勵(lì)值均為負(fù)值,通過不斷的訓(xùn)練,所提方法的平均獎(jiǎng)勵(lì)值上升的最快也是最多的,與文獻(xiàn)[4]方法和文獻(xiàn)[5]方法比較后發(fā)現(xiàn),所提方法在訓(xùn)練過程中其平均獎(jiǎng)勵(lì)值最高,說明該方法的容錯(cuò)控制精度最優(yōu)。
圖5 三種方法的平均獎(jiǎng)勵(lì)值
機(jī)器臂所處的環(huán)境中干擾因素較多,十分影響機(jī)械臂容錯(cuò)控制性能,當(dāng)在容錯(cuò)控制過程中出現(xiàn)干擾因素后不可避免出現(xiàn)容錯(cuò)控制誤差,為比較三種容錯(cuò)控制的好壞,比較三種方法在同一個(gè)帶有干擾因素的機(jī)械臂進(jìn)行容錯(cuò)控制,判斷每種方法的控制誤差,當(dāng)控制誤差最小,說明該方法的容錯(cuò)控制最有效,三種方法的控制誤差如下所示。
圖6 三種方法的抗干擾能力對(duì)比結(jié)果
根據(jù)實(shí)驗(yàn)結(jié)果可知,控制誤差最小的是所提方法,其次是文獻(xiàn)[4]方法,控制誤差最大的文獻(xiàn)[5]方法,由此驗(yàn)證了所提方法是最優(yōu)機(jī)械臂容錯(cuò)控制方法。
為了保證航天事業(yè)的快速發(fā)展,加強(qiáng)國家建設(shè),提出基于改進(jìn)深度學(xué)習(xí)的多自由度機(jī)械臂容錯(cuò)控制研究方法,該方法首先完成機(jī)械臂的自適應(yīng)建模,其次基于深度學(xué)習(xí)完成機(jī)械臂的容錯(cuò)控制,實(shí)現(xiàn)多自由度機(jī)械臂容錯(cuò)控制,解決了容錯(cuò)控制整體性能差、平均獎(jiǎng)勵(lì)值低和抗干擾能力差的問題,保障航天事業(yè)的進(jìn)一步加強(qiáng)。