丁斗建,趙曉林,趙博欣,高關(guān)根,劉 暢
(1 空軍工程大學(xué)研究生院, 西安 710051;2 空軍工程大學(xué)裝備管理與無人機工程學(xué)院, 西安 710051; 3 中航工業(yè)西安飛行自動控制研究所慣性技術(shù)航空科技重點實驗室, 西安 710065)
近年來,多智能體系統(tǒng)得到了廣泛的研究和發(fā)展,先后被學(xué)者應(yīng)用到機器人編隊,無人機集群等領(lǐng)域[1-2]。其中一致性問題是多智能體系統(tǒng)研究的熱點方向,目的是通過設(shè)計一定的控制序列,使每個智能體在信息交流后實現(xiàn)同步。通過智能體之間的協(xié)同和合作,可以提高系統(tǒng)的容錯率、魯棒性以及穩(wěn)定性,能較好解決復(fù)雜問題,是單個智能體不能企及的。
隨著對多智能體系統(tǒng)一致性問題研究的不斷深入,相應(yīng)的研究成果不斷出現(xiàn)。文獻(xiàn)[3]考慮了信息受限下二階多智能體系統(tǒng)一致性問題;文獻(xiàn)[4]為了解決多智能體系統(tǒng)一致性跟蹤問題,提出了一種分布式自適應(yīng)控制協(xié)議;文獻(xiàn)[5]則提出了一種異質(zhì)控制協(xié)議,用于多智能體系統(tǒng)自適應(yīng)跟蹤。相比于以上研究成果,文獻(xiàn)[6]考慮了分?jǐn)?shù)階不確定多智能體系統(tǒng),在設(shè)計控制協(xié)議時,結(jié)合了狀態(tài)觀測器。
迭代學(xué)習(xí)控制方法,是一種基于重復(fù)學(xué)習(xí)的思想,不斷重復(fù)有限時間內(nèi)的操作,以到達(dá)改善控制效果的學(xué)習(xí)方法。文獻(xiàn)[7-10]應(yīng)用迭代學(xué)習(xí)控制方法,實現(xiàn)了多智能體系統(tǒng)的編隊控制,同時還針對此方法,研究了有限時間輸出一致性問題;文獻(xiàn)[11-12]從迭代學(xué)習(xí)控制算法的初始條件出發(fā),提出了分布式初始狀態(tài)學(xué)習(xí)控制方法,研究了多智能體系統(tǒng)的一致性問題;文獻(xiàn)[13-14]研究了迭代學(xué)習(xí)控制下多智能體系統(tǒng)一致性跟蹤問題。
近年來,有學(xué)者為了解決多智能體系統(tǒng)中數(shù)據(jù)傳輸帶來的負(fù)擔(dān)問題,引入了量化控制。所謂量化控制,就是將系統(tǒng)的實際連續(xù)信號轉(zhuǎn)化為分段連續(xù)信號再進行傳輸?shù)囊环N數(shù)據(jù)處理方法。文獻(xiàn)[15]針對一類非線性二階多智能體系統(tǒng),引入了均勻量化控制,研究了有領(lǐng)導(dǎo)智能體時系統(tǒng)的跟蹤問題;文獻(xiàn)[16]研究了二階多智能體系統(tǒng)在有向拓?fù)鋱D結(jié)構(gòu)下,結(jié)合概率量化方法設(shè)計了控制協(xié)議,實現(xiàn)了系統(tǒng)的一致性;文獻(xiàn)[17]考慮了一階多智能體系統(tǒng)量化迭代學(xué)習(xí)控制下的一致性實現(xiàn)問題。
針對以上分析不難發(fā)現(xiàn),量化控制方法,已經(jīng)被大量用于多智能體系統(tǒng)中,以解決相應(yīng)的問題,如跟蹤、同步等,也有學(xué)者將量化控制方法與迭代學(xué)習(xí)控制方法結(jié)合,提出了基于量化的迭代學(xué)習(xí)控制協(xié)議,如文獻(xiàn)[17]。文獻(xiàn)[17]僅考慮了一階多智能體系統(tǒng)的情形,文獻(xiàn)[16]雖然對二階多智能體系統(tǒng)引入了量化器,但并沒有結(jié)合迭代學(xué)習(xí)控制,而且對于帶有領(lǐng)導(dǎo)智能體的多智能體系統(tǒng)的情況也沒有考慮。
綜合以上分析,考慮到迭代學(xué)習(xí)方法對控制目標(biāo)的修正效果,以及量化器的引入能降低信號在鏈路傳輸中的負(fù)擔(dān)等原因,文中針對帶有領(lǐng)導(dǎo)者的二階多智能體系統(tǒng),引入量化器,并結(jié)合迭代學(xué)習(xí)控制方法,設(shè)計量化迭代學(xué)習(xí)控制協(xié)議。具體實施過程為:給定多智能體系統(tǒng),對系統(tǒng)的狀態(tài)誤差和狀態(tài)兩類情形分別進行量化,應(yīng)用量化后的結(jié)果,結(jié)合迭代學(xué)習(xí)控制方法,設(shè)計基于量化信息的迭代學(xué)習(xí)控制協(xié)議,再將所設(shè)計的控制協(xié)議,作用于給定系統(tǒng)并分析控制效果。
對于由n個節(jié)點組成的無向圖G=(V,E,A),定義V={1,2,…,n}是點集,E∈{(i,j):i∈V,j∈V}是邊集,A=[aij]n×n,aij∈R是圖的連接權(quán)值矩陣,鄰居集Ni表示所有的信息由節(jié)點j流向節(jié)點i的集合。對于任意兩個不同的節(jié)點,如果i,j∈V,有aij=aji≥0,當(dāng)j∈Ni時,有aij>0,定義aii=0,di=∑j∈Niaij,D=diag{d1,d2,…,dn},那么圖的拉普拉斯矩陣可以表示為L=D-A。對于無向圖G,權(quán)值矩陣A是對稱的,同時,如果圖中任意兩點存在一條路徑,則此無向圖是連通的。
考慮對數(shù)量化器[18-19],取量化等級U={±ui:ui=ρiu0,i=0,±1,±2,…}∪{0}。其中,u0>0;ρ∈(0,1)是量化密度。量化器Q(·)由式(1)給出。
(1)
式中:δ=(1-ρ)/(1+ρ)。顯然,由式(1)所定義的量化器Q(·)為對稱且時不變的,其量化結(jié)果是將實際輸入轉(zhuǎn)化為分段連續(xù)輸出。不同量化密度下的量化輸出如圖1所示。
圖1 不同量化密度下的量化輸出
根據(jù)文獻(xiàn)[19],對于給定的量化密度ρ,對數(shù)量化器具有如下的性質(zhì):
Q(x)-x=Δ·x
(2)
式中:x表示量化器的輸入,Δ·x表示量化誤差,且‖Δ‖≤δ。
定義1對于給定的向量函數(shù)f(t):[0,T]→Rn的λ范數(shù)定義為:
(3)
(4)
特別的,當(dāng)a=0時,有
(5)
式中:‖·‖λ表示λ范數(shù)。
定義3Rn表示n×1階列矩陣,Y=[1,1,…,1]T表示元素全是1的列向量。
考慮由n個智能體和1個領(lǐng)導(dǎo)者組成的二階多智能體系統(tǒng),其中第i個智能體在第k次迭代時的動態(tài)方程表示為:
(6)
假設(shè)領(lǐng)導(dǎo)者的動態(tài)方程表示為
(7)
式中:x0(t)、v0(t)和u0(t)分別表示領(lǐng)導(dǎo)者的位置、速度和控制輸入。
則可以定義多智能體系統(tǒng)一致性誤差為:
(8)
在這一節(jié)中,主要對系統(tǒng)狀態(tài)誤差進行量化??紤]給定的系統(tǒng)式(6)和式(7),在信號傳輸?shù)倪^程中,引入對數(shù)量化器。設(shè)計第i個智能體的量化一致性誤差為
(9)
式中:aij是連接矩陣A中的元素;bi表示智能體i與領(lǐng)導(dǎo)者相連的連接權(quán)值;Q(·)表示對系統(tǒng)狀態(tài)誤差的量化輸出。
根據(jù)對數(shù)量化器的性質(zhì)式(2),將式(9)轉(zhuǎn)化為
(10)
將上式寫成矩陣的形式:
(11)
將式(8)寫成矩陣的形式,則有:
(12)
(13)
根據(jù)迭代學(xué)習(xí)控制思想,設(shè)計迭代控制協(xié)議:
(14)
式中:uk(t)∈Rn是智能體在第k代的控制輸入,Γ是學(xué)習(xí)增益矩陣。
將式(13)代入式(14),則有:
(15)
設(shè)計如下初始學(xué)習(xí)協(xié)議:
(16)
從迭代學(xué)習(xí)控制的觀點考慮,控制協(xié)議式(15)以及初始條件式(16)可以看作是微分型迭代控制序列。結(jié)合式(12)可知,這種迭代控制協(xié)議主要利用鄰居智能體間的誤差信息進行交流,因此具備了迭代學(xué)習(xí)控制和分布式協(xié)議的特點。
證明根據(jù)多智能體系統(tǒng)動態(tài)方程(6),不難發(fā)現(xiàn)
(17)
將式(15)代入式(17),則有
(18)
對式(18)右邊積分得:
(19)
代入初始條件式(16),有
(20)
根據(jù)式(12),式(20)可以轉(zhuǎn)化為:
(21)
進而,有
(22)
對上式兩邊同時積分,即
(23)
則有
(24)
代入初始條件(16),式(24)可以轉(zhuǎn)化為:
(25)
對上式兩邊同時取范數(shù),則有
(26)
用e-λt乘以式(26)的兩邊,并根據(jù)定義1和定義2,則
(27)
這一節(jié),主要考慮的是對系統(tǒng)狀態(tài)進行量化。設(shè)計第i個智能體的量化一致性誤差為:
(28)
結(jié)合對數(shù)量化器的性質(zhì),類似于2.2節(jié)的分析,可以得到:
(29)
式中:H′=D+B。設(shè)計迭代控制協(xié)議
(30)
將式(29)代入式(30),得
(31)
設(shè)計如下初始學(xué)習(xí)協(xié)議
(32)
證明因為
(33)
代入初始條件式(32),式(33)可化為:
(34)
結(jié)合式(12),式(34)可化為:
(35)
對上式兩邊同時積分,并代入初始條件(32),得:
(36)
對上式兩邊同時取范數(shù),則有
(37)
用e-λt乘以式(37)兩邊,根據(jù)定義1和定義2,有
(38)
對于固定的多智能體系統(tǒng)拓?fù)鋱D,H和H′是固定的,可以選擇合適的學(xué)習(xí)增益矩陣Γ和量化密度ρ,使條件‖I-(1+Δ)ΓH‖<1和‖I-Γ(H+ΔH′)‖<1滿足控制要求。
為了驗證文中結(jié)論的正確性,對上節(jié)所述兩種情形進行仿真分析。考慮5個智能體和1個領(lǐng)導(dǎo)者組成的多智能體系統(tǒng),其無向拓?fù)鋱D如圖2所示,0號代表領(lǐng)導(dǎo)者。
圖2 多智能體系統(tǒng)通訊拓?fù)鋱D
根據(jù)第2章所介紹的基本知識,可以得到:
B=diag(1,0,0,0,0),D=diag(2,2,2,2,2)
情形1考慮量化系統(tǒng)狀態(tài)誤差
給定每個智能體動態(tài)方程如式(6),領(lǐng)導(dǎo)者動態(tài)方程如式(7),領(lǐng)導(dǎo)者的輸入為,u0(t)=sin(t)。
設(shè)多智能體初始位置和速度分別為x1(0)=[2,2.5,1.5,1,0.5]T和v1(0)=[1.5,-1,0.5,-0.5,1]T;領(lǐng)導(dǎo)者初始位置,x(0)=[0,0,0,0,0]T,v(0)=[0,0,0, 0,0]T,仿真時間設(shè)置為t∈[0,6 s]。選取量化密度ρ=0.35,則σ=0.481 5,所以Δ∈[-0.481 5,0.481 5],這里選擇Δ=-0.45。
選擇Γ=diag[0.25,0.25,0.25,0.25,0.25],則有‖I-(1+Δ)ΓH‖=0.963 2<1,滿足定理1要求。取迭代次數(shù)k=200,考慮迭代學(xué)習(xí)控制律(15)和初始狀態(tài)更新控制律(16),仿真結(jié)果如圖3~圖6所示。
圖3和圖4是5個智能體的位置和速度跟蹤結(jié)果。由圖可以看出,隨著迭代次數(shù)的增加,最終初始狀態(tài)逐漸趨近于領(lǐng)導(dǎo)者的初始狀態(tài),多智能體實現(xiàn)對領(lǐng)導(dǎo)者的跟蹤。圖5是k=200時的控制輸出,可以看出,最終每個智能體的控制近乎一致,從而說明了多智能體的狀態(tài)將不再發(fā)生改變。圖6是200次迭代過程中最大位置和速度誤差絕對值的變化曲線。最終誤差趨近于0,從而表明了定理1的有效性。
情形2考慮量化系統(tǒng)狀態(tài)
令多智能體系統(tǒng)和領(lǐng)導(dǎo)者動態(tài)方程與情形1保持一致。設(shè)多智能體初始位置和速度分別為x1(0)=[2,1.7,2.5,1.5,1],v1(0)=[1.5,2,2.5,1.7,1.5]T,其它參數(shù)設(shè)置與情形1一致。這里選擇Δ=0.35。選擇Γ=diag[0.35,0.35,0.35,0.35,0.35],則有‖I-Γ(H+ΔH′)‖=0.761 7<1,滿足定理2的要求。取迭代次數(shù)k=50。考慮迭代學(xué)習(xí)控制律(31)和初始狀態(tài)更新控制律(32),仿真結(jié)果如圖7~圖10所示。
圖3 5個跟隨智能體放入位置跟蹤結(jié)果
圖4 5個跟隨智能體放入速度跟蹤結(jié)果
圖5 k=200時的控制輸出
圖6 最大位置和速度跟蹤誤差
圖7 5個跟隨智能體放入位置跟蹤結(jié)果
圖8 5個跟隨智能體放入速度跟蹤結(jié)果
圖9 k=50時的控制輸出
圖10 最大位置和速度跟蹤誤差
圖7和圖8是5個智能體的位置和速度跟蹤結(jié)果。由圖可以看出,隨著迭代次數(shù)的增加,最終初始狀態(tài)逐漸趨近于領(lǐng)導(dǎo)者的初始狀態(tài),多智能體實現(xiàn)對領(lǐng)導(dǎo)者的跟蹤;圖9是k=50時的控制輸出,可以看出,最終每個智能體的控制幾乎一致,從而表明了多智能體系統(tǒng)的狀態(tài)將不再發(fā)生改變;圖10是50次迭代過程中最大位置和速度誤差絕對值的變化曲線,最終誤差為0,從而表明了定理2的有效性。
圖3和圖4,圖7和圖8的結(jié)果說明,雖然多智能體的初始位置與領(lǐng)導(dǎo)智能體的不同,但是隨著迭代次數(shù)的增加,最終實現(xiàn)了同步;相比文獻(xiàn)[7]和文獻(xiàn)[14]要求多智能體的初始位置與領(lǐng)導(dǎo)者一致,對條件進行了放寬;與情形1相比,情形2實現(xiàn)對領(lǐng)導(dǎo)者的跟蹤,所需迭代次數(shù)明顯較少,這是因為‖Δ‖選取不一樣,情形2要比情形1粗糙。
文中應(yīng)用量化器信息,結(jié)合迭代學(xué)習(xí)控制方法,分析了基于量化系統(tǒng)狀態(tài)誤差和量化系統(tǒng)狀態(tài)兩種情形下的帶有領(lǐng)導(dǎo)者的二階多智能體系統(tǒng)一致性實現(xiàn)問題;針對不同情形,設(shè)計了不同的迭代學(xué)習(xí)控制協(xié)議和初始狀態(tài)更新律,通過理論分析,獲得了智能體實現(xiàn)對領(lǐng)導(dǎo)者跟蹤同步的收斂條件,仿真結(jié)果表明了所設(shè)計的量化迭代學(xué)習(xí)協(xié)議的有效性。后續(xù)工作將在此基礎(chǔ)上對高階多智能體系統(tǒng)進行相關(guān)分析和討論。