池文浩, 高 強, 吉月輝
(天津理工大學電氣電子工程學院, 天津 300384)
多智能體系統(tǒng)的分布式協(xié)調(diào)控制因其在電力系統(tǒng)[1]、無人機[2]、移動機器人[3]等領(lǐng)域的廣泛應用而受到普遍關(guān)注。在過去幾十年里,多智能體的協(xié)調(diào)控制取得了大量的研究成果[4-5]。最優(yōu)協(xié)調(diào)控制問題是使各智能體的狀態(tài)達成一致,而且將能量利用率降到最低,已成為研究熱點之一。
在文獻[6-7]中,作者提出最優(yōu)協(xié)調(diào)控制依賴于耦合的哈密頓-雅可比-貝爾曼(Hamilton-Jacobi-Bellman, HJB)方程的解,但這種方程的解析解難以準確求取。為了解決這一問題,在文獻[8]中提出了一種自適應動態(tài)規(guī)劃(adaptive dynamic programming,ADP)方法。自適應動態(tài)規(guī)劃方法融合了強化學習算法,自適應評價和動態(tài)規(guī)劃理論[9-10],自適應動態(tài)規(guī)劃及其相關(guān)領(lǐng)域的研究越來越受到重視[11-12]。在文獻[11]中,采用迭代自適應動態(tài)規(guī)劃算法求解一類具有控制約束的非線性離散系統(tǒng)的近似最優(yōu)控制問題。為了研究連續(xù)時間HJB方程,文獻[12]提出了一種基于ADP的數(shù)據(jù)驅(qū)動自適應跟蹤控制方法。同時,利用ADP求解多智能體微分圖形游戲的耦合HJB方程[7-13]。在上述ADP算法的應用中,均實現(xiàn)了系統(tǒng)的穩(wěn)定性和良好的控制性能。
為此,現(xiàn)提出一種基于ADP算法的四旋翼無人機分布式最優(yōu)協(xié)調(diào)控制方法。根據(jù)貝爾曼最優(yōu)性原理,建立多無人機的性能指標和耦合HJB方程。為了求解相關(guān)的HJB方程,采取基于模糊雙曲模型的評價神經(jīng)網(wǎng)絡(critic neural network, CNN)[8]來逼近值函數(shù)以實現(xiàn)控制策略的設計。與文獻[10]中的評價-行為(critic-actor)神經(jīng)網(wǎng)絡相比,由于網(wǎng)絡結(jié)構(gòu)更加簡單,系統(tǒng)更新次數(shù)相對較少,能夠進一步提高策略迭代的效率,因此在多無人機系統(tǒng)中使用單個評價神經(jīng)網(wǎng)絡的框架是有效的。
首先介紹符號和代數(shù)圖論,然后推導分布式協(xié)調(diào)誤差的動態(tài)表達式。
將編號為1,2,…,N的N個無人機組成一個多智能體系統(tǒng)。每個無人機由通信圖G中的節(jié)點表示。這些節(jié)點的動力學模型為
(1)
領(lǐng)航者的動態(tài)模型為
(2)
式(2)中:領(lǐng)航者的狀態(tài)為x0∈Rn;f(x0)是一個微分函數(shù)。
(1)這里的領(lǐng)航者可以被視為一個命令生成器,它生成所需的信號以供跟隨者跟蹤。為了使所有無人機與領(lǐng)航者保持同步,設計了局部相鄰協(xié)調(diào)誤差來描述協(xié)調(diào)團隊的目標期望。第i個無人機的局部相鄰協(xié)調(diào)誤差定義為
(3)
式(3)中:ci≥0表示連接增益。
(2)在通信圖G中,必須保證領(lǐng)航者可以與部分跟隨者進行通信。如果第i個跟隨者與領(lǐng)航者之間有溝通,那么連接增益ci>0,否則,ci=0。
對局部相鄰一致協(xié)調(diào)控制誤差[式(3)]進行微分得:
(di+ci){f(xi)+gi(xi)ui-
(di+bii)[f(xi)+gi(xi)ui-f(x0)]-
(4)
設計了一個基于ADP的協(xié)調(diào)控制器,使所有無人機與領(lǐng)航者同步,同時優(yōu)化他們提供的性能指標。通常,多智能體的最優(yōu)協(xié)調(diào)控制設計被認為是耦合HJB方程的解。為了獲得局部耦合HJB方程,設計了依賴于局部相鄰一致性誤差和協(xié)調(diào)控制策略的性能指標函數(shù)。定義與i關(guān)聯(lián)的局部性能指標為
(5)
為了理解完整的狀態(tài)信息與反饋控制策略之間的最終協(xié)調(diào)控制,引入一個容許控制策略的定義。
定義1(容許協(xié)調(diào)控制策略)。在集合∈Rn上,定義反饋控制策略ui,i∈Ω為關(guān)于式(5)的容許協(xié)調(diào)控制,如果ui是連續(xù)的,ui(0)=0,則ui能夠穩(wěn)定系統(tǒng)[式(4)],并且局部成本函數(shù)[式(5)]是有限的。
(6)
可以得到局部耦合HJ方程:
(7)
(8)
(9)
因此無人機i的局部最優(yōu)協(xié)調(diào)控制策略為
(10)
現(xiàn)提出一種策略迭代(policy iterative)算法用來求解每個無人機的耦合HJB方程。一般而言,策略迭代算法包括兩個步驟:策略評估和策略改進。重復這兩個步驟,直到策略改進的結(jié)果不再改變控制策略,且值函數(shù)只需通過容許控制策略進行評估。
算法1多無人機分布式協(xié)調(diào)控制策略迭代算法。
(11)
第3步:(策略改進)使用式(12)更新N個控制策略。
(12)
重復第2步,直至收斂。推導一個定理,以證明策略迭代算法對多智能體的收斂性。
(13)
(14)
為了使不等式(14)成立,必須保證:
(15)
根據(jù)Vi的定義,可知Vi()=0。通過對在區(qū)間[t,)上積分,能夠得到:
(16)
根據(jù)局部值函數(shù)式(6)的定義可知:
(17)
當l→時,又因為得到因此值函數(shù)成立。同時,可以得到
與文獻[7]相比,只考慮更新無人機i的控制策略,而其他無人機的控制策略保持不變的情況。
采用在線ADP技術(shù)求解耦合的HJB方程[式(9)]。為了實現(xiàn)所提出的ADP技術(shù),利用基于模糊雙曲模型的評價神經(jīng)網(wǎng)絡(CNN)對值函數(shù)進行逼近,并幫助計算控制策略。由于CNN網(wǎng)絡結(jié)構(gòu)更加簡單,系統(tǒng)更新次數(shù)相對較少,因此更適用于解決多無人機系統(tǒng)的最優(yōu)協(xié)調(diào)控制問題。
在評價神經(jīng)網(wǎng)絡中,對神經(jīng)網(wǎng)絡的權(quán)值估計進行了更新,提出了利用模糊雙曲評價逼近器逼近無人機i的值函數(shù),表示為
(18)
(19)
選擇激活函數(shù)Φi[zi]來逼近值函數(shù),并且滿足Φi(0)=0。對于無人機i, HJB方程誤差可以定義為
(20)
給定任意容許協(xié)調(diào)控制策略,為使殘差平方和最小,設計為
(21)
更新律表示為
(22)
為了推導出權(quán)值估計誤差,將式(18)代入式(7),可以改寫為
(23)
也就是說,可以得到式(24)。
(24)
(25)
為了使評價網(wǎng)絡權(quán)值估計誤差收斂到零,激活函數(shù)Φi[zi]必須滿足激勵條件的持續(xù)性。
根據(jù)值函數(shù)的預估和權(quán)值更新律,可計算出容許協(xié)調(diào)控制策略為
(26)
在給出評價神經(jīng)網(wǎng)絡權(quán)值估計誤差的一致最終有界之前,需要給出以下定義和假設。
用定理2來證明評價神經(jīng)網(wǎng)絡的權(quán)值估計誤差是UUB的。
Lyapunov函數(shù)候選項為
(27)
對Li1求導,得到:
(28)
(29)
結(jié)合式(28)和式(29),計算Lyapunov函數(shù)的導數(shù)為
(30)
(31)
實驗1為了證明所提協(xié)調(diào)控制算法的有效性,利用一個領(lǐng)航者和3個跟隨者組成一個多無人機系統(tǒng),在MATLAB的Simulink仿真環(huán)境中搭建動態(tài)系統(tǒng)進行仿真分析。每個跟隨者的動態(tài)描述如下:
(32)
無人機之間的切換通信拓撲G={G1、G2、G3}如圖1所示。通信圖在第10秒和第20秒的時候按照G1→G2→G3的方式切換。領(lǐng)航者的動力學模型是r(t)=r4(t)=y4(t)=10。
圖1 一組由3個跟隨者(F1~F3)和一個領(lǐng)航者(L4)構(gòu)成的切換通信拓撲圖Fig.1 Switching communication topologies for a group of three followers (F1 to F3) and one leader (L4)
在仿真中,各跟隨者(F1、F2、F3)的初始狀態(tài)在不同位置,評價神經(jīng)網(wǎng)絡的初始權(quán)值在[-1,1]區(qū)間隨機初始化,具體初始設定如表1所示。 仿真結(jié)果如圖2~圖4所示。
表1 跟隨者(F1、F2、F3)的初始設定
圖2 輸出跟蹤軌跡Fig.2 Output tracking trajectory
由3個跟隨者和一個領(lǐng)航者所構(gòu)成的編隊系統(tǒng),其輸出跟蹤軌跡如圖2所示。仿真結(jié)果表明3個跟隨者能夠在3.5 s的時間內(nèi)與領(lǐng)航者保持狀態(tài)一致。
圖3 協(xié)調(diào)控制誤差軌跡 Fig.3 Cooperative control errors trajectory
協(xié)調(diào)控制誤差的軌跡δi=yi-r(t)(i=1,2,3)如圖3所示,表明協(xié)調(diào)控制誤差可以在短時間內(nèi)收斂到原點的一個小鄰域內(nèi)。
圖4 值函數(shù)曲線Fig.4 Value function curve
由值函數(shù)變化曲線(圖4)可知,3個跟隨者系統(tǒng)在較短時間內(nèi)經(jīng)過策略迭代,權(quán)重更新趨于停止,即可與領(lǐng)航者保持狀態(tài)一致。
圖5 一組由4個跟隨者(F1~F4)和2個領(lǐng)航者(L5,L6)所構(gòu)成的切換通信拓撲圖Fig.5 Switching communication topologies for a group of four followers (F1 to F4) and two leaders (L5, L6)
在仿真中β=2,各跟隨者(F1、F2、F3、F4)的初始狀態(tài)在不同位置,評價神經(jīng)網(wǎng)絡的初始權(quán)值在[-1,1]區(qū)間內(nèi)隨機初始化,具體初始設定如表2所示。仿真結(jié)果如圖6~圖8所示。
表2 跟隨者(F1、F2、F3、F4)的初始設定
圖6和圖7給出了4個跟隨者和2個領(lǐng)航者組成的多無人機系統(tǒng)的仿真結(jié)果。結(jié)果表明該算法能使多無人機系統(tǒng)中服從切換拓撲的所有追隨者的系統(tǒng)輸出收斂到領(lǐng)航者所張成的凸空間。
圖6 輸出的跟蹤軌跡Fig.6 Output tracking trajectory
圖7 系統(tǒng)狀態(tài)軌跡Fig.7 System state trajectory
圖8 值函數(shù)曲線Fig.8 Value function curve
由值函數(shù)變化曲線(圖8)可知,4個跟隨者系統(tǒng)在較短時間內(nèi)經(jīng)過策略迭代,權(quán)重更新趨于停止,即可與領(lǐng)航者保持狀態(tài)一致。
實驗1和實驗2的仿真結(jié)果表明,所提出的控制策略保證了閉環(huán)系統(tǒng)的穩(wěn)定性,并在切換通信拓撲存在的情況下,保證了多無人機編隊系統(tǒng)良好的控制性能。
采用自適應動態(tài)規(guī)劃的方法對多無人機分布式系統(tǒng)在有向通信切換拓撲的方式下進行最優(yōu)協(xié)調(diào)控制。通過兩個仿真實例驗證了該方法的有效性,并得到以下結(jié)論。
(1)策略迭代算法是基于分布式異步結(jié)構(gòu)系統(tǒng)來實現(xiàn)的,它不僅減少了相鄰無人機之間的通信傳輸,而且只需要第i個無人機更新其控制策略,而相鄰無人機保持不變。
(2)針對每架無人機引入一個獨立的評價神經(jīng)網(wǎng)絡來近似值函數(shù)。與傳統(tǒng)的評價-行為網(wǎng)絡(critic-actor network)框架相比,它簡化了網(wǎng)絡結(jié)構(gòu),減少了更新權(quán)值的次數(shù)。
在以后的研究工作中,為了使成果更加完美,將增加相應的硬件實驗。通信時延在多智能體系統(tǒng)中是不可避免的問題,也是今后的研究工作。