余自權(quán),程月華,張友民,姜 斌*
(1.南京航空航天大學(xué)自動化學(xué)院,江蘇南京210016;2.加拿大康考迪亞大學(xué)機械、工業(yè)與航空工程系,蒙特利爾H3G 1M8)
集群無人機逐漸被用于執(zhí)行廣域監(jiān)視、資源勘查、森林火情檢測等復(fù)雜、危險且耗時的任務(wù)[1-3].與單架無人機只能掛載少量特定類型的任務(wù)載荷相比,集群無人機可以掛載龐大數(shù)量和多種類型的任務(wù)載荷.通過將不同任務(wù)載荷分配至不同的無人機,集群無人機可以協(xié)作完成單架無人機難以完成的任務(wù)[4].目前,國內(nèi)外均已開展集群無人機的相關(guān)研究,例如:國內(nèi)中國電子科技集團電子科學(xué)研究院完成的119架(2017)和200架(2018)無人機集群飛行試驗;國外的“小精靈”項目、“低成本無人機集群技術(shù)”項目等.集群無人機協(xié)同執(zhí)行任務(wù)涉及感知技術(shù)、通信技術(shù)、計算機技術(shù)、控制技術(shù)和管理技術(shù),為典型的“感-傳-算-控”系統(tǒng),屬多學(xué)科交叉研究領(lǐng)域[5].在上述技術(shù)中,控制技術(shù)主要用于確保集群無人機系統(tǒng)協(xié)同編隊的穩(wěn)定性[6].比較典型的協(xié)同編隊控制架構(gòu)包括基于領(lǐng)航-跟隨、行為、虛擬結(jié)構(gòu)和圖論的控制架構(gòu)[7].基于上述控制架構(gòu),神經(jīng)網(wǎng)絡(luò)自適應(yīng)、滑模、有限時間、勢能場等控制方法被廣泛用于集群無人機的協(xié)同控制中[8-9].
集群無人機協(xié)同執(zhí)行任務(wù)過程中經(jīng)常會遭遇陣風(fēng)、風(fēng)切變、常值風(fēng)等外界風(fēng)擾的影響,給整個集群編隊的安全控制帶來極大的挑戰(zhàn).此外,集群無人機編隊飛行過程中可能會遭遇致命性和非致命性故障[10].在突遭致命性故障情況下,如何將完全失效無人機從集群編隊中移除而不碰撞鄰近無人機,并且確保通信拓撲變換后的編隊穩(wěn)定性是亟待解決的關(guān)鍵性難題之一.另外一個關(guān)鍵性技術(shù)難題是當(dāng)集群無人機遭遇非致命性故障時,如何利用硬件冗余或者容錯控制算法確保故障集群編隊依舊能較好地完成既定任務(wù).在非致命性故障情況下,集群無人機容錯飛行控制算法的設(shè)計主要面臨如下挑戰(zhàn)性問題:1) 外界風(fēng)擾與集群內(nèi)部故障耦合情況下的容錯協(xié)同控制問題;2) 考慮性能強約束需求的集群容錯協(xié)同控制問題;3) 機間通信中斷/網(wǎng)絡(luò)攻擊下的集群容錯協(xié)同控制問題;4) 集群無人機分布式故障診斷與容錯協(xié)同控制的集成設(shè)計問題;5) 面向故障執(zhí)行器二次損傷防護的平穩(wěn)快響容錯協(xié)同控制問題;6) 考慮輸入、狀態(tài)、輸出約束下的容錯協(xié)同控制設(shè)計[10].為提升集群無人機編隊遭遇非致命性故障情況下的飛行安全性,基于預(yù)設(shè)性能函數(shù),Yang等[11]針對多架三自由度無人直升機設(shè)計了分布式協(xié)同控制策略,確保了無人機編隊在遭遇故障、不確定性和輸入飽和情況下的飛行安全性.Yu等[12]采用分布式滑模估計器與容錯控制分層設(shè)計架構(gòu),基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法、最小參數(shù)學(xué)習(xí)方法和一階滑模微分器設(shè)計了集群固定翼無人機有限時間容錯協(xié)同控制方案,提升了集群無人機遭遇故障情況下的編隊飛行安全性.Yu等[10]針對集群無人機容錯協(xié)同控制研究的歷史及現(xiàn)狀,以及未來可能的研究方向進行了詳細分析,并闡述了目前用于容錯協(xié)同控制研究的方法.
作為一種可用于解決強非線性控制問題的強化學(xué)習(xí)方法,Actor-Critic強化學(xué)習(xí)方法集成了基于Value的Q-Learning方法和基于Policy的Policy Gradients方法,其中Critic神經(jīng)網(wǎng)絡(luò)用于評估控制行為,Actor神經(jīng)網(wǎng)絡(luò)基于Critic神經(jīng)網(wǎng)絡(luò)評估結(jié)果修正控制信號.與四旋翼無人機的運動特性相比,固定翼無人機具有較強的非線性,并且各個控制通道之間存在強耦合特性[13-14].將強化學(xué)習(xí)機制引入集群固定翼無人機容錯協(xié)同控制設(shè)計中,可以有效解決風(fēng)擾、故障、強非線性耦合影響下的容錯協(xié)同控制設(shè)計難題.最近,越來越多的研究者開始在非線性控制設(shè)計中引入強化學(xué)習(xí)機制,以提升控制方案的學(xué)習(xí)能力[15-19].Xian等[15]針對遭遇外界干擾與系統(tǒng)不確定性的小型無人機,設(shè)計了Actor神經(jīng)網(wǎng)絡(luò)和Critic神經(jīng)網(wǎng)絡(luò),分別用于估計未建模動態(tài)不確定性和跟蹤性能函數(shù),并構(gòu)建了基于Actor-Critic神經(jīng)網(wǎng)絡(luò)的強化學(xué)習(xí)魯棒自適應(yīng)控制策略,確保了無人機的飛行安全.Shi等[16]針對無向通信拓撲下的多航天器姿態(tài)編隊控制問題,引入預(yù)設(shè)性能函數(shù),設(shè)計了可在線補償系統(tǒng)不確定性和估計代價函數(shù)的Actor-Critic神經(jīng)網(wǎng)絡(luò)強化學(xué)習(xí)機制,提出了一種航天器智能編隊控制方法,滿足航天器編隊跟蹤性能預(yù)設(shè)要求.Elhaki等[17]進一步采用基于Actor-Critic神經(jīng)網(wǎng)絡(luò)的強化學(xué)習(xí)策略,研究存在未建模動態(tài)和不確定性的欠驅(qū)動自主無人潛航器跟蹤控制問題,提出了基于強化學(xué)習(xí)機制的魯棒自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制方法.雖然目前基于強化學(xué)習(xí)機制的控制研究已取得部分成果,但針對遭遇風(fēng)擾、故障下的集群固定翼無人機強化學(xué)習(xí)容錯協(xié)同控制研究還較少,亟待進一步研究.
基于上述分析,本文將針對外界風(fēng)擾與內(nèi)部故障耦合影響下的集群無人機容錯協(xié)同控制問題,結(jié)合強化學(xué)習(xí)機制,研究集群無人機容錯協(xié)同控制方法,確保集群無人機在遭遇非致命性故障和風(fēng)擾情況下可同步跟蹤上參考指令信號.
本文研究N架固定翼無人機集群編隊飛行過程中遭遇風(fēng)擾與執(zhí)行器故障情況下的容錯協(xié)同控制方案,其中,第i架無人機的姿態(tài)動力學(xué)模型可表示為[20]:
(1)
(2)
進一步地,第i架無人機的姿態(tài)角速率運動模型可表示為:
(3)
(4)
其中:Cil0、Cilβ、Cilδa、Cilδr、Cilp、Cilr、Cim0、Cimα、Cimδe、Cimq、Cin0、Cinβ、Cinδa、Cinδr、Cinp和Cinr為氣動力矩系數(shù).
基于式(1)~(3),可得:
(5)
其中:fi11、fi12、fi13、di11、di12和di13具有如下的表達式:
(6)
其中:fi
χ
0、fiγ0、di
χ
和diγ可表示為:
(7)
(8)
將氣動參數(shù)表達式(4)帶入角速率式(3),可得:
(9)
(10)
定義xi1=[μi,αi,βi]T、xi2=[pi,qi,ri]T、ui=[δia,δie,δir]T,則可以獲得如下姿態(tài)模型:
(11)
其中:fi1=[fi11,fi12,fi13]T,fi2=[fi21,fi22,fi23]T,di1=[di11,di12,di13]T,gi1和gi2的表達式如下:
(12)
(13)
考慮副翼、升降舵、方向舵執(zhí)行器效率下降和作動偏差故障,則可獲得如下面向控制的故障無人機模型:
(14)
其中:ρi=diag{ρi1,ρi2,ρi3}為效率下降矩陣,bif=[bif1,bif2,bif3]T為有界作動偏差向量,ρiv=1代表第v個執(zhí)行器未遭遇故障;ρiv∈(0,1)代表第v個執(zhí)行器遭遇了效率下降故障,v=1, 2, 3分別代表副翼、升降舵、方向舵.
將分數(shù)階微積分引入整數(shù)階系統(tǒng)中可以有效改善控制系統(tǒng)的暫態(tài)和穩(wěn)態(tài)性能[21],本文采用下述分數(shù)階微積分進行控制器設(shè)計[22]:
(15)
其中:a∈(n-1,n]為分數(shù)階微積分算子,n∈N.Γ(·)是Gamma函數(shù).
針對微積分定義(15),存在如下等式[23]:
(16)
本文采用神經(jīng)網(wǎng)絡(luò)設(shè)計強化學(xué)習(xí)算法.神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、隱含層和輸出層,當(dāng)隱含層的神經(jīng)元節(jié)點數(shù)量足夠大時,可以用來逼近強未知非線性函數(shù).神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)結(jié)構(gòu)可以表示為[24]:
f(z)=wTφ(z)+ε,
(17)
其中:z為神經(jīng)網(wǎng)絡(luò)的輸入向量,w和φ分別代表神經(jīng)網(wǎng)絡(luò)的最優(yōu)權(quán)重矩陣和高斯基函數(shù)向量,ε為有界偏差.基函數(shù)向量φ中的元素φκ可表示為
(18)
其中:κ=1,2,…,n,n為基函數(shù)向量的維度,c和σ分別為基函數(shù)輸入信號的中心向量和寬度.
本文采用無向通信拓撲G=(Ω,E,A)描述集群無人機之間的通信關(guān)系,其中,Ω={1,2,…,N}為集群無人機集合,E?Ω×Ω為機間通信鏈路集合,A=[aij]N×N為鄰接矩陣.如果(UAV#i,UAV#j)∈E,則說明第j架無人機的狀態(tài)信息可以傳輸至第i架無人機,同時有aij>0,否則,aij=0.定義第i架無人機的鄰近無人機集合為Ni={UAV#j|(UAV#i,UAV#j)∈E}.在集群分布式通信架構(gòu)中,如果對于任意兩架無人機,均存在至少一條通信鏈路,則認為通信拓撲G=(Ω,E,A)是無向聯(lián)通圖.
本節(jié)首先構(gòu)建分布式分數(shù)階同步跟蹤偏差,并在此基礎(chǔ)上利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機制設(shè)計強化學(xué)習(xí)算法;然后,基于同步跟蹤偏差與強化學(xué)習(xí)算法,設(shè)計集群無人機容錯協(xié)同控制器;最后,利用Lyapunov方法對系統(tǒng)的穩(wěn)定性進行分析.
將式(14)中的xi1進行二次求導(dǎo),可得:
(19)
類似文獻[26],定義第i架無人機與近鄰無人機的同步跟蹤偏差為:
(20)
其中:λ1和λ2分別用于調(diào)節(jié)第i架無人機的跟蹤性能和第i架無人機相對于鄰近無人機的同步性能.
基于同步跟蹤偏差(20),設(shè)計如下分數(shù)階滑模面:
(21)
其中:λ3和η為正的設(shè)計參數(shù),a∈(0,1]為分數(shù)階微積分算子.
對式(21)求導(dǎo),可得:
(22)
本小節(jié)采用強化學(xué)習(xí)中的Actor-Critic神經(jīng)網(wǎng)絡(luò)機制,設(shè)計如下智能自適應(yīng)容錯協(xié)同控制信號:
(23)
圖1 控制結(jié)構(gòu)Fig.1Control structure
將控制信號(23)代入式(22),則可得:
(24)
借鑒文獻[17],定義如下包含Critic神經(jīng)網(wǎng)絡(luò)的Critic函數(shù):
(25)
上述Critic神經(jīng)網(wǎng)絡(luò)函數(shù)的估計值為:
(26)
設(shè)計Actor-Critic神經(jīng)網(wǎng)絡(luò)的自適應(yīng)律如下:
(27)
(28)
其中:κ21、κ22、κ31和κ32為正的設(shè)計參數(shù).基于自適應(yīng)律(27)和(28),Actor-Critic神經(jīng)網(wǎng)絡(luò)組成強化學(xué)習(xí)單元,并用于調(diào)整控制信號(23)的輸出.整體控制框圖如圖1所示.
定理1考慮N架固定翼無人機組成的集群編隊,假設(shè)機間通信鏈路為無向連通,并且部分無人機遭遇執(zhí)行器故障,設(shè)計同步跟蹤偏差(20)、分數(shù)階滑模面(21)、控制信號(23)、Actor-Critic神經(jīng)網(wǎng)絡(luò)自適應(yīng)律(27)~(28),則所有固定翼無人機均可同步跟蹤上參考指令信號xid,并且同步跟蹤偏差ei最終一致有界.
證明定義如下Lyapunov函數(shù):
(29)
對上式求導(dǎo),可得:
(30)
進一步,可得:
(31)
定義
(32)
則有
T≤‖si‖·‖εia‖+‖si‖·‖wia‖F(xiàn)·
(33)
(34)
設(shè)計自適應(yīng)律:
(35)
其中:κ41和κ42是正的參數(shù).
將式(33)、(35)代入公式(31),可得:
(36)
利用如下不等式:
(37)
可得:
(38)
進一步利用如下不等式:
(39)
(40)
可得:
(41)
其中:πi1和πi2的表達式為
(42)
為檢驗容錯協(xié)同控制方案的性能,假設(shè)UAV#1~UAV#3分別在t=15 s,t=30 s,t=45 s遭遇如下故障:
圖2 無人機通信拓撲圖Fig.2Communication topology of UAVs
UAV#1副翼、升降舵、方向舵故障(t≥15 s):
(43)
UAV#2副翼故障(t≥30 s):
(44)
UAV#3升降舵故障(t≥45 s):
(45)
無人機的結(jié)構(gòu)參數(shù)和氣動參數(shù)取自文獻[29].仿真中的控制參數(shù)設(shè)為λ1=0.9,λ2=0.2,λ3=1.5,K1=diag{18,27,13},ξi=0.08,κ21=19.6,κ22=2,κ31=48,κ32=2.7,κ41=98,κ42=2.3.
圖3為所有無人機的側(cè)滾角、攻角和側(cè)滑角響應(yīng)曲線.從圖3中可以看出,即使UAV#1~UAV#3在t=15,30,45 s時遭遇執(zhí)行器故障,但在所設(shè)計容錯協(xié)同控制方案的作用下,所有無人機的姿態(tài)均保持有界.圖4為所有無人機的角速率響應(yīng)曲線.從圖中可以觀察到,當(dāng)無人機遭遇故障時,角速率信號出現(xiàn)了瞬態(tài)變化,但在控制方案的作用下,角速率信號很快穩(wěn)定下來,從而確保了集群編隊系統(tǒng)的穩(wěn)定性.
圖3 無人機姿態(tài)角響應(yīng)曲線Fig.3Time responses UAVs′ attitudes
圖4 無人機角速率響應(yīng)曲線Fig.4Time response of UAVs′ rates
圖5 無人機姿態(tài)同步跟蹤偏差Fig.5Attitude synchronization tracking errors of all UAVs
圖6 無人機個體姿態(tài)跟蹤偏差Fig.6Individual attitude tracking errors of all UAVs
圖7 無人機控制輸入信號Fig.7Control input signals of all UAVs
本文針對風(fēng)擾和故障條件下的集群無人機容錯控制問題,基于Actor-Critic神經(jīng)網(wǎng)絡(luò)強化學(xué)習(xí)機制,設(shè)計了分數(shù)階強化學(xué)習(xí)容錯協(xié)同控制方案.首先,構(gòu)建了可同時反映個體跟蹤性能與同步性能的同步跟蹤偏差,并引入了分數(shù)階微積分算子,形成分數(shù)階偏差變量;其次,基于Actor神經(jīng)網(wǎng)絡(luò)設(shè)計了智能自適應(yīng)容錯協(xié)同控制信號;再次,設(shè)計Actor-Critic神經(jīng)網(wǎng)絡(luò)自適應(yīng)律,激活強化學(xué)習(xí)算法的學(xué)習(xí)能力;然后,結(jié)合Lyapunov穩(wěn)定性理論證明所有無人機的姿態(tài)同步跟蹤偏差均收斂至含零的很小區(qū)域內(nèi);最后,數(shù)值仿真結(jié)果驗證了所設(shè)計的強化學(xué)習(xí)容錯協(xié)同控制方案的有效性.