弓鎮(zhèn)宇, 李慶奎
(北京信息科技大學(xué)自動(dòng)化學(xué)院,北京 100192)
由于多智能體系統(tǒng)應(yīng)用的廣泛性,其相關(guān)研究在數(shù)學(xué)、生物、經(jīng)濟(jì)、控制科學(xué)等眾多學(xué)科領(lǐng)域獲得了長(zhǎng)足的發(fā)展. 其中多智能體系統(tǒng)的一致性問題一直是研究熱點(diǎn),它在飛行器編隊(duì)控制[1-2]、機(jī)器人協(xié)作[3-4]和網(wǎng)絡(luò)系統(tǒng)同步[5-6]等實(shí)際問題中起著重要作用. 解決一致性問題的關(guān)鍵在于設(shè)計(jì)合理的控制策略或控制協(xié)議,使得各個(gè)智能體與鄰居能夠進(jìn)行特定的信息交換,并最終實(shí)現(xiàn)狀態(tài)的統(tǒng)一.
二人零和博弈最早由馮-諾依曼歸納提出[7],它是指博弈中雙方參與者的收益和為零或常數(shù),二人零和博弈問題可轉(zhuǎn)化為最大最小優(yōu)化問題[8]. 從控制角度來看,控制輸入和干擾輸入是一種“對(duì)抗”關(guān)系,設(shè)計(jì)一個(gè)指標(biāo)函數(shù)來量化系統(tǒng)性能,控制輸入的目標(biāo)就是使得指標(biāo)函數(shù)最小,而干擾的目標(biāo)是最大化指標(biāo)函數(shù). 求解二人零和博弈問題依賴于求解Hamilton-Jacobi-Isaacs(HJI)方程. 由于HJI方程仍然難以直接求解,因此針對(duì)這個(gè)難題,文獻(xiàn)[9]中引入了離線策略迭代算法,通過迭代收斂獲得HJI方程的解. 隨著強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)科的發(fā)展,與Actor-Critic神經(jīng)網(wǎng)絡(luò)結(jié)合的在線策略迭代算法[10-12]和值迭代算法[13]也受到了眾多關(guān)注. 在多智能體框架下,文獻(xiàn)[14]研究了二人零和圖博弈問題,并給出了與Actor-Critic 神經(jīng)網(wǎng)絡(luò)結(jié)合的雙環(huán)策略迭代算法進(jìn)行求解;文獻(xiàn)[15]研究了多智能體系統(tǒng)存在輸入飽和以及輸出限制時(shí)的二人零和博弈問題,并且結(jié)合了自適應(yīng)動(dòng)態(tài)規(guī)劃方法.
隨著研究深入,外部干擾和模型不確定性存在時(shí)的一致性問題受到了越來越多的關(guān)注,文獻(xiàn)[16]中引入了H∞控制理論,將其轉(zhuǎn)化為多智能體系統(tǒng)的H∞一致性問題. 目前大多數(shù)針對(duì)H∞一致性問題的研究基于求解線性矩陣不等式[17-20],而文獻(xiàn)[14,21-22]中引入了二人零和博弈框架對(duì)H∞一致性問題展開討論,這為H∞一致性打開了新的思路. 文獻(xiàn)[21]中討論了設(shè)計(jì)輸出狀態(tài)反饋控制策略實(shí)現(xiàn)多智能體系統(tǒng)的同步性,并給出了解耦HJI方程的方法;文獻(xiàn)[14]將H∞一致性問題轉(zhuǎn)化為二人零和圖博弈問題,并引入策略迭代算法進(jìn)行求解;文獻(xiàn)[22]中考慮了異質(zhì)多智能體模型的H∞一致性問題.
目前在博弈論框架中,國(guó)內(nèi)外求解H∞一致性問題的文獻(xiàn)主要針對(duì)有領(lǐng)導(dǎo)者時(shí)的情形,即各個(gè)智能體狀態(tài)最終與領(lǐng)導(dǎo)者的狀態(tài)同步. 領(lǐng)導(dǎo)者的引入可以保證拓?fù)鋱D的拉普拉斯矩陣是非奇異的,從而有助于分析和計(jì)算,而系統(tǒng)中沒有領(lǐng)導(dǎo)者時(shí)的一致性研究較少,針對(duì)這種研究現(xiàn)狀,可以考慮多智能體系統(tǒng)的平均一致性問題. 當(dāng)智能體與全局平均狀態(tài)的誤差趨于零時(shí),多智能體系統(tǒng)實(shí)現(xiàn)一致性. 此時(shí)需要考慮到誤差系統(tǒng)中存在奇異系數(shù)矩陣的問題. 本文研究了離散時(shí)間多智能體系統(tǒng)存在外部干擾時(shí)的平均一致性問題,不同于傳統(tǒng)的求解線性矩陣不等式實(shí)現(xiàn)H∞控制做法,此處將設(shè)計(jì)一致性協(xié)議問題轉(zhuǎn)化為尋找二人零和博弈的納什均衡點(diǎn)的問題,通過納什均衡點(diǎn)可以得出最優(yōu)的控制協(xié)議設(shè)計(jì). 針對(duì)二人零和博弈產(chǎn)生的耦合HJI方程設(shè)計(jì)了解耦方法,并使用了雙環(huán)策略迭代算法尋求最壞情形干擾下的最優(yōu)一致性協(xié)議,最后通過一個(gè)算例仿真證明了提出方法的可行性.
對(duì)稱圖的拉普拉斯矩陣是對(duì)稱矩陣,本文考慮的圖是對(duì)稱圖且不包含自環(huán).
考慮由N個(gè)智能體組成的多智能體系統(tǒng),第i個(gè)智能體的動(dòng)力學(xué)方程如下所示:
式中A 和B 都是適當(dāng)維度的系統(tǒng)矩陣,xi(k)∈Rn代表智能體i 的狀態(tài)變量,ui(k)∈Rn代表其控制輸入,ωi(k)∈Rn代表外部擾動(dòng).
因此,包含N個(gè)智能體的多智能體系統(tǒng)的動(dòng)力學(xué)方程可整合成如下形式:
式中IN為N×N 維的單位陣,并且有:
定義1 對(duì)于包含N個(gè)智能體的系統(tǒng)(3)而言,若系統(tǒng)中智能體i在任意初始狀態(tài)xi(0)下都滿足以下條件:
則稱該系統(tǒng)達(dá)成了一致性.
為實(shí)現(xiàn)多智能體系統(tǒng)一致性,我們需要根據(jù)智能體i和它鄰居的狀態(tài)合理設(shè)計(jì)一致性協(xié)議,考慮具有如下形式的一致性協(xié)議:
其中K1表示分布式一致性增益,進(jìn)一步整理可得:
進(jìn)一步整理可得系統(tǒng)誤差動(dòng)力學(xué)方程:
其中In為n×n 維的單位陣,并且有:
注意到矩陣M 是奇異矩陣,不妨令:
則有:
式中z(k)為系統(tǒng)輸出,此外根據(jù)式(5)可得:
因此H∞一致性問題可以轉(zhuǎn)化為設(shè)計(jì)一致性協(xié)議問題,該協(xié)議能夠讓誤差系統(tǒng)在外部擾動(dòng)?(k)=0 時(shí)實(shí)現(xiàn)漸進(jìn)穩(wěn)定,且滿足下述條件.
定義2[23]對(duì)于非零外部干擾?(k)∈l2[0,∞)以及有界函數(shù)β,給定一個(gè)正標(biāo)量γ,若系統(tǒng)(7)滿足以下條件:
則稱該系統(tǒng)是l2增益有界的. 令γ*為干擾抑制水平γ 的下界,則對(duì)于任意的γ >γ*而言式(9)都成立.
首先對(duì)系統(tǒng)(7)定義一個(gè)性能函數(shù):
式中Q >0,R >0,T >0 是對(duì)稱的權(quán)重矩陣. 對(duì)于控制輸入和外部干擾定義如下值函數(shù):
H∞一致性問題可看作是一個(gè)零和博弈問題,其中參與者包含一致性協(xié)議和外部干擾,控制輸入的目標(biāo)是減小指標(biāo)函數(shù),而干擾的目標(biāo)是增大指標(biāo)函數(shù). 因此,這個(gè)過程可表示為:
它等價(jià)于下面的納什均衡條件:
由貝爾曼最優(yōu)原理和式(11)可得貝爾曼方程:
考慮二次型形式的值函數(shù):
式中P為正半定對(duì)稱矩陣. 將式(16)代入(15)式可得到:
進(jìn)一步定義哈密爾頓函數(shù)為:
通過一階條件?H ?uˉ=0,?H ??=0 可得最優(yōu)控制策略和最壞情形的干擾策略:
式中:
基于誤差狀態(tài)的反饋控制律結(jié)構(gòu)由式(8)給出,因此最優(yōu)控制策略可由最優(yōu)控制增益-(L ?K*1)給出.假設(shè)R=R1?R2,并且P=P1?P2,結(jié)合式(8)可得:
假設(shè)T=T1?T2,并且最壞情形下干擾滿足以下形式:
進(jìn)一步通過如下定理對(duì)耦合HJI方程(21)進(jìn)行解耦.
定理1 考慮如(7)中所示的多智能體誤差系統(tǒng),如果R1=T1=IN,P1=L,且矩陣Q滿足:
因此HJI方程(21)等價(jià)于:
式中
如果權(quán)重矩陣Q 滿足:
式中Q1=≥0. 將其代入耦合HJI方程可得到:
式中Ak=(In+BK1-K2) . 最終可以得到:
因此P2可以通過求解式(25)得出,并進(jìn)一步得到P,該定理證畢.
本節(jié)將討論誤差狀態(tài)系統(tǒng)存在外部擾動(dòng)時(shí),在最優(yōu)一致性協(xié)議uˉ*(k)的作用下是滿足l2增益有界條件的. 首先介紹以下引理.
引理1[24]假設(shè)HJI方程存在正定解V*( )
δ(k) ,那么下式成立:
定理2 假設(shè)γ >γ*,并且HJI方程存在光滑的正定解V*,那么在控制策略u(píng)ˉ*(k)下,當(dāng)?(k)=0 時(shí)系統(tǒng)(7)能實(shí)現(xiàn)漸進(jìn)穩(wěn)定,并且對(duì)于任意?(k)∈l2[0,∞]系統(tǒng)都滿足l2增益有界條件.
證明 假設(shè)HJI方程存在解V*,同時(shí)把uˉ*(k),?*(k)代入到式(18)中可得:
式中
當(dāng)?(k)=0 時(shí),下述不等式成立:
所以根據(jù)Lyapunov定理可知系統(tǒng)在最優(yōu)控制策略下能夠?qū)崿F(xiàn)漸近穩(wěn)定. 考慮干擾抑制條件和引理1,對(duì)式(29)進(jìn)行級(jí)數(shù)運(yùn)算可得:
因此該系統(tǒng)滿足在γ 水平上l2增益有界,該定理證畢. 由此可知多智能體系統(tǒng)(3)可實(shí)現(xiàn)H∞一致性.
因?yàn)镠JI方程解耦之后仍然難以直接求解,所以我們采用了雙環(huán)策略迭代算法來求解Lyapunov方程形式的HJI方程(25),并獲得最優(yōu)控制策略. 該算法包括內(nèi)環(huán)迭代和外環(huán)迭代,其中內(nèi)環(huán)執(zhí)行策略評(píng)估,將控制策略固定,對(duì)干擾策略進(jìn)行迭代;外環(huán)執(zhí)行策略更新,改進(jìn)控制策略. 算法具體步驟如表1所示.
表1 雙環(huán)策略迭代算法Tab.1 Double-loop policy iteration algorithm
進(jìn)一步可通過式(22)和式(24)分別得到最優(yōu)控制策略和最壞情形干擾策略.
假設(shè)一個(gè)多智能體系統(tǒng)中包含3個(gè)智能體,它們通過圖1所示的通信拓?fù)溥M(jìn)行信息交互,每個(gè)智能體的動(dòng)力學(xué)方程為:
所以圖1的拉普拉斯矩陣為:
圖1 通信拓?fù)鋱DFig.1 Communication topology
選擇合適的權(quán)重矩陣Q1、R2和T2,選定γ=0.45,通過算法1計(jì)算得出P2為:
進(jìn)一步可得出針對(duì)最壞情形擾動(dòng)設(shè)計(jì)的最優(yōu)一致性協(xié)議. 給定智能體狀態(tài)初始值為:
圖2和圖3展現(xiàn)了三個(gè)智能體的狀態(tài)響應(yīng)曲線,三個(gè)智能體的狀態(tài)在0.5 s處趨于一致. 圖4和圖5展現(xiàn)了各個(gè)智能體的狀態(tài)與整體平均狀態(tài)間的誤差響應(yīng)曲線,誤差值在0.5 s處趨近于0. 因此可以推斷出,考慮外部擾動(dòng)影響時(shí)的多智能體系統(tǒng)在文中提出方法下最終可以達(dá)成一致性.
圖2 狀態(tài)xi1 的響應(yīng)曲線Fig.2 Response curve of state xi1
圖3 狀態(tài)xi2 的響應(yīng)曲線Fig.3 Response curve of state xi2
圖4 誤差δi1 的響應(yīng)曲線Fig.4 Response curve of error δi1
圖5 誤差δi2 的響應(yīng)曲線Fig.5 Response curve of error δi2
本文利用二人零和博弈思想代替?zhèn)鹘y(tǒng)的線性矩陣不等式方法,解決了離散多智能體系統(tǒng)存在外部干擾時(shí)的H∞平均一致性問題,設(shè)計(jì)解耦方法和引入雙環(huán)策略迭代算法求出最優(yōu)控制策略和最壞情形擾動(dòng)策略,使得系統(tǒng)在最壞干擾下能夠?qū)崿F(xiàn)H∞平均一致性. 仿真結(jié)果驗(yàn)證了該方法行之有效,考慮時(shí)滯和切換系統(tǒng)會(huì)更加貼切實(shí)際情形,可以作為下一步的研究方向.