劉家義, 岳韶華, 王 剛, 姚小強(qiáng), 張 杰,*
(1.空軍工程大學(xué)防空反導(dǎo)學(xué)院, 陜西 西安 710054; 2.空軍工程大學(xué)研究生院, 陜西 西安 710054)
多智能體系統(tǒng)建模以圖論相關(guān)知識(shí)為基礎(chǔ),利用點(diǎn)狀態(tài)與邊狀態(tài)之間的關(guān)系對(duì)多智能體之間的信息關(guān)系與交互博弈進(jìn)行描述,當(dāng)前主要針對(duì)多智能體系統(tǒng)的一致性與降階問題進(jìn)行研究探討[1]。文獻(xiàn)[2]利用基于事件的控制策略,研究了具有時(shí)滯的線性有向多智能體系統(tǒng)的一致性問題。為了避免智能體間通信的連續(xù)性和控制器更新的頻繁性,提出了一種基于事件觸發(fā)函數(shù)的控制策略,該函數(shù)由測(cè)量誤差和基于鄰居離散狀態(tài)的閾值組成。同時(shí),在事件觸發(fā)函數(shù)中引入時(shí)變偏移量,以排除接近一致的潛在吊詭行為與減小的理論閾值。文獻(xiàn)[3]針對(duì)一類高階非線性多智能體系統(tǒng),結(jié)合回溯技術(shù),提出了一種基于觀測(cè)器的自適應(yīng)一致跟蹤控制策略。該方法通過對(duì)每個(gè)跟蹤器建立基于神經(jīng)網(wǎng)絡(luò)的狀態(tài)觀測(cè)器,解決了高階非線性多智能體系統(tǒng)的不可測(cè)狀態(tài)問題。文獻(xiàn)[4]研究了異構(gòu)線性多智能體系統(tǒng)的最優(yōu)一致跟蹤問題。通過引入跟蹤誤差動(dòng)力學(xué),將最優(yōu)跟蹤問題重新表述為求解多智能體博弈的納什均衡解與關(guān)聯(lián)耦合哈密頓-雅可比方程。設(shè)計(jì)了一種基于數(shù)據(jù)的誤差估計(jì)器,用于實(shí)現(xiàn)多智能體系統(tǒng)基于數(shù)據(jù)的控制。利用二次函數(shù)逼近每個(gè)智能體的值函數(shù)以及利用最小二乘意義上的迭代技術(shù),學(xué)習(xí)算法通過輸入-輸出得到最優(yōu)協(xié)同控制。該理論不依賴于多智能體系統(tǒng)的模型,而是利用實(shí)測(cè)的輸入輸出信息來解決多智能體系統(tǒng)的最優(yōu)一致問題。文獻(xiàn)[5]研究了分?jǐn)?shù)階多智能體系統(tǒng)通過采樣數(shù)據(jù)事件觸發(fā)控制的一致性。首先,利用采樣狀態(tài)定義事件觸發(fā)算法,可以避免Zeno行為。在此基礎(chǔ)上,提出了一種分布式控制協(xié)議,保證了分?jǐn)?shù)階多代理系統(tǒng)的一致性,以確保多代理系統(tǒng)中的所有代理都達(dá)到指定的參考狀態(tài)。利用線性矩陣不等式,獲得保證分?jǐn)?shù)階多智能體系統(tǒng)一致性的充分條件。
本文基于學(xué)者已發(fā)表文獻(xiàn)的基礎(chǔ)上,就已經(jīng)構(gòu)建好的智能體系統(tǒng)內(nèi)部博弈模型與分布式多智能體指揮控制系統(tǒng)的基礎(chǔ)上,討論在多智能體系統(tǒng)處理復(fù)雜任務(wù)時(shí)的協(xié)同算法設(shè)計(jì)。針對(duì)多智能體系統(tǒng)的協(xié)同優(yōu)化問題,提出了復(fù)雜任務(wù)下的多智能體協(xié)同進(jìn)化算法,算法主要應(yīng)用于多智能體協(xié)同處理的復(fù)雜任務(wù)上,從復(fù)雜任務(wù)的角度研究多智能體系統(tǒng)的協(xié)同優(yōu)化問題。
本文主要研究?jī)?nèi)容有:首先提出復(fù)雜任務(wù)下的多智能體系統(tǒng)協(xié)同優(yōu)化問題并建立數(shù)學(xué)模型,基于問題提出解決方法與基礎(chǔ)算法;接著針對(duì)算法設(shè)計(jì)基本流程,根據(jù)適應(yīng)度函數(shù)選取、確定學(xué)習(xí)步長(zhǎng)、狀態(tài)轉(zhuǎn)移方向確定、智能體狀態(tài)更新、多智能體系統(tǒng)群進(jìn)化操作這些步驟對(duì)算法進(jìn)行具體描述;最后針對(duì)已經(jīng)提出的算法進(jìn)行仿真實(shí)現(xiàn),以全局收益作為分析對(duì)象,分析算法模型的有效性并加以證明。
多智能體系統(tǒng)具有優(yōu)越的自主性和不可預(yù)測(cè)性,在處理復(fù)雜問題方面具有解算能力強(qiáng)、收斂速度快、魯棒性強(qiáng)等優(yōu)勢(shì)[6],但是由于多智能體系統(tǒng)內(nèi)部各智能體的自利性與多智能體系統(tǒng)的能力調(diào)度問題過于復(fù)雜[7],導(dǎo)致該問題至今還沒有一個(gè)合適的算法模型進(jìn)行合適的求解。文獻(xiàn)[8]通過分析飛行器航線規(guī)劃的技術(shù)特點(diǎn),結(jié)合多智能體系統(tǒng)的分布式背景,引入?yún)f(xié)同進(jìn)化機(jī)制,提出了基于多智能體協(xié)同進(jìn)化的飛行器航路規(guī)劃算法。文獻(xiàn)[9]提出當(dāng)前Markov決策存在隨機(jī)不確定性與態(tài)勢(shì)信息不完全,通過模仿生物間共生互利的特點(diǎn)為多智能體協(xié)同提出了新的思路,用一個(gè)神經(jīng)網(wǎng)絡(luò)表示一個(gè)智能體獲得的態(tài)勢(shì)信息映射,通過協(xié)同進(jìn)化神經(jīng)元方法進(jìn)化單個(gè)智能體,為多智能體系統(tǒng)的協(xié)同機(jī)制提供了新的思路。
由于戰(zhàn)場(chǎng)態(tài)勢(shì)變化復(fù)雜且信息量巨大,本文將基于現(xiàn)有的理論基礎(chǔ),針對(duì)該特點(diǎn)設(shè)計(jì)了復(fù)雜任務(wù)下的多智能體協(xié)同進(jìn)化算法,目的是提高多智能體系統(tǒng)解決復(fù)雜任務(wù)的速率并降低系統(tǒng)復(fù)雜度,消除多智能體系統(tǒng)在處理復(fù)雜問題的短板。算法期望是在一定時(shí)間內(nèi),利用計(jì)算能力較強(qiáng)的多智能體系統(tǒng)快速獲取全局最優(yōu)解,實(shí)現(xiàn)戰(zhàn)術(shù)目標(biāo)。以多智能體系統(tǒng)的損失值為對(duì)象,通過分析損失值的迭代遞減特性,證明了算法的有效性。針對(duì)防空反導(dǎo)領(lǐng)域的分布式協(xié)同作戰(zhàn)指控問題,結(jié)合強(qiáng)化學(xué)習(xí)開發(fā)架構(gòu),設(shè)計(jì)開發(fā)了多智能體指控系統(tǒng),并針對(duì)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行具體分析,對(duì)系統(tǒng)進(jìn)行體系架構(gòu)分析,并對(duì)迭代訓(xùn)練后的多智能體指控系統(tǒng)進(jìn)行數(shù)據(jù)演示。
1.2.1 智能體狀態(tài)轉(zhuǎn)移模型
在本節(jié)中,將對(duì)多智能體系統(tǒng)處理復(fù)雜任務(wù)過程中通過智能體的狀態(tài)轉(zhuǎn)移進(jìn)行模型構(gòu)建,研究利用多個(gè)智能體的協(xié)同狀態(tài)轉(zhuǎn)移問題。
(1)
(2)
式中,假設(shè)ηi j(t)滿足sup|η(k)(t)|≤ρk,ρk(k=0,1,2,…)為正實(shí)數(shù)序列。
1.2.2 多目標(biāo)優(yōu)化方法
由于各個(gè)目標(biāo)之間可能存在沖突或者制約關(guān)系,且多目標(biāo)優(yōu)化問題不存在唯一解,而是存在最優(yōu)解集,多智能體系統(tǒng)中的多目標(biāo)問題主要求解方法如下[11]。
(1)線性權(quán)重加和法
該問題的求解難度在于權(quán)重如何分配,具體如下:
(3)
(2)獎(jiǎng)懲函數(shù)方法
使用獎(jiǎng)懲函數(shù)作為優(yōu)化問題的求解方法,其設(shè)計(jì)思想來源于單智能體系統(tǒng)與桿平衡系統(tǒng),桿平衡系統(tǒng)的獎(jiǎng)懲函數(shù)設(shè)計(jì)方式過于單一,主要為在智能體轉(zhuǎn)移狀態(tài)后,失敗的獎(jiǎng)罰值為-1,成果的獎(jiǎng)罰值為0。該系統(tǒng)存在幾個(gè)明顯的缺陷:① 智能體執(zhí)行任務(wù)過程中無法定義其狀態(tài)轉(zhuǎn)移是否為最終的收益做出貢獻(xiàn),且無法確定具體的貢獻(xiàn)有多大。② 獎(jiǎng)懲函數(shù)的基本設(shè)計(jì)原則是智能體在最大化收益的同時(shí)完成任務(wù)目標(biāo),設(shè)計(jì)獎(jiǎng)懲函數(shù)是給定任務(wù)目標(biāo),而不是指揮智能體一步步完成任務(wù)目標(biāo),如果按照狀態(tài)轉(zhuǎn)移的步驟給予獎(jiǎng)賞,則智能體很有可能偏離方向,片面地朝著獎(jiǎng)賞方向發(fā)展,不利于任務(wù)目標(biāo)的實(shí)現(xiàn)。修改后的獎(jiǎng)懲函數(shù)具體如下:
(4)
本文將基于原有的獎(jiǎng)懲函數(shù)進(jìn)行優(yōu)化設(shè)計(jì),增大全局收益最大化對(duì)于智能體收益影響的效果,盡可能減弱智能體的自利性[13]。
本文基于差分進(jìn)化(differential evolution, DE)算法進(jìn)行算法[14-16]優(yōu)化,設(shè)計(jì)出多智能體協(xié)同進(jìn)化算法(multi-agent co-evolutionary algorithm,MCA),主要分為兩個(gè)階段。
第一個(gè)階段借鑒了人類在全局搜索中的學(xué)習(xí)行為,結(jié)合啟發(fā)式搜索算法[17-18]的理念,在優(yōu)化問題求解中融入智能搜索行為,其主要思想為:以一個(gè)優(yōu)化解為基礎(chǔ),在該解的附近領(lǐng)域內(nèi)可能存在更優(yōu)解,所以當(dāng)搜索到更優(yōu)解的時(shí)候,則進(jìn)行迭代繼續(xù)搜索更優(yōu)解,當(dāng)不存在更優(yōu)解的時(shí)候,則停止搜索,完成狀態(tài)更新,獲得優(yōu)化問題的第一階段求解[19-20]。
MCA算法第一階段基于模擬人類的搜索行為,主要由自利行為、全局收益最大化、不確定性推理等組成:① 自利行為[21]。智能體系統(tǒng)通過協(xié)同機(jī)制完成復(fù)雜任務(wù),其協(xié)同方式是基于自身利益進(jìn)行狀態(tài)的改變,根據(jù)歷史經(jīng)驗(yàn)向最佳位置移動(dòng)。② 全局收益最大化。全局收益最大化可以促進(jìn)個(gè)體與全局之間的協(xié)同,通過態(tài)勢(shì)共享、信息交互、歷史經(jīng)驗(yàn)交互、基于一個(gè)共同的全局收益不斷優(yōu)化自身的行動(dòng)[22]。③ 未知行為推理。針對(duì)最優(yōu)解獲取問題,常采取集中搜索,即縮小較優(yōu)鄰域,繼而采用自適應(yīng)機(jī)制搜索領(lǐng)域內(nèi)的最優(yōu)解。在這種不確定性問題求解中,一般人類的思維是構(gòu)建模糊系統(tǒng),基于這一特點(diǎn),利用人類對(duì)于行為控制和語言描述的模糊性特點(diǎn)構(gòu)建模糊系統(tǒng),同時(shí)制定模糊推理規(guī)則[23-24]。
MCA算法第二階段基于第一階段對(duì)多智能體系統(tǒng)進(jìn)行迭代優(yōu)化后,進(jìn)一步提升優(yōu)化效果。對(duì)系統(tǒng)內(nèi)智能體參數(shù)進(jìn)行比較,適當(dāng)修改智能體的個(gè)別或者部分參數(shù),對(duì)智能體采取變異操作,觀測(cè)變異后的智能體能力是否有所提高,如果有所提高則保留修改,反之能更換參數(shù)進(jìn)行修改,繼而增強(qiáng)全局搜索能力。當(dāng)智能體系統(tǒng)能力趨于收斂時(shí),則將智能體系統(tǒng)重新迭代會(huì)至第一階段,如此反復(fù),直至智能體系統(tǒng)能力趨于平穩(wěn),從而獲得多智能體協(xié)同優(yōu)化問題的全局最優(yōu)解[25-26]。
接下來將對(duì)MCA算法進(jìn)行基本流程的表述,進(jìn)一步清晰地構(gòu)建算法模型。
MCA[27]以自身為中心采取全局利益最大化行為,必要時(shí)犧牲自身利益,從而確定下一狀態(tài)。當(dāng)獲取局部最優(yōu)狀態(tài)后,以此時(shí)的多智能體系統(tǒng)作為初代群,按照一定的概率對(duì)智能體內(nèi)部的參數(shù)進(jìn)行修改,完成變異操作,根據(jù)貪婪準(zhǔn)則進(jìn)行淘汰與保留,實(shí)現(xiàn)群進(jìn)化。進(jìn)化后重新進(jìn)行狀態(tài)轉(zhuǎn)移,如此反復(fù)趨于收斂,直至獲得全局最優(yōu)解。
2.2.1 適應(yīng)度函數(shù)的選取
MCA算法在搜索進(jìn)化過程中僅僅以適應(yīng)度作為指標(biāo)參數(shù)評(píng)價(jià)智能體個(gè)體的能力強(qiáng)弱,并作為智能體狀態(tài)轉(zhuǎn)移的重要依據(jù)之一,使得解逐步靠近最優(yōu)解。定義誤差的絕對(duì)值作為最小目標(biāo)函數(shù),引入控制變量防止解空間過大導(dǎo)致過擬合,則目標(biāo)函數(shù)為
(5)
式中,e(t)為誤差項(xiàng);w1、和w2分別為權(quán)值常數(shù),取值范圍為[0,1];u(t)為輸出項(xiàng)。
2.2.2 學(xué)習(xí)步長(zhǎng)確定
MCA的不確定推理采用正態(tài)分布表示學(xué)習(xí)步長(zhǎng)的模糊變量:
uA=e-(x-u)/2δ2xuδ
(6)
式中,uA為基于高斯的隸屬函數(shù)度;x為輸入變量;u和δ為隸屬函數(shù)參數(shù)。根據(jù)線性隸屬函數(shù),使隸屬度與目標(biāo)函數(shù)值成正比,定義umax=1;umin=0.003,則當(dāng)u<1時(shí),其不確定推理可表示為
ui j=rand(ui, 1)
(7)
式中,ui j是j維空間基于目標(biāo)函數(shù)值i的隸屬度;ui是基于目標(biāo)函數(shù)值i的隸屬度。根據(jù)行為預(yù)測(cè)推理可得步長(zhǎng):
(8)
式中,ai j是j維學(xué)習(xí)空間的學(xué)習(xí)步長(zhǎng),此時(shí)求解δi j高斯隸屬函數(shù)參數(shù)如下:
(9)
式中, iter和itermax分別是當(dāng)前迭代次數(shù)和最大迭代次數(shù);xmax、xmin分別是多智能體系統(tǒng)中的極大極小函數(shù)值;w是慣性權(quán)值。
2.2.3 狀態(tài)轉(zhuǎn)移方向確定
通過對(duì)智能體的自利行為、全局收益最大化、不確定性推理的分析與建模,可以得到第i個(gè)智能體的自利方向di,ego(t)、全局收益最大化方向di,alt(t)和不確定性推理方向di,pro(t),具體表示如下:
(10)
對(duì)上述3個(gè)因素進(jìn)行隨機(jī)加權(quán),最終可得狀態(tài)轉(zhuǎn)移方向:
di, j(t)=sign(ωdi,ego(t)+φ1di,alt(t)+φ2di,pro(t))
(11)
式中,xi(t1)和xi(t2)分別是{xi(t-2),xi(t-1),xi(t)}中的最優(yōu)狀態(tài)函數(shù)值。
2.2.4 智能體狀態(tài)更新
確定學(xué)習(xí)步長(zhǎng)與狀態(tài)轉(zhuǎn)移方向后,對(duì)智能體進(jìn)行狀態(tài)更新:
(12)
2.2.5 多智能體系統(tǒng)群進(jìn)化
(1)變異
(13)
(2)交叉
即利用交叉算子生成新的智能體作為候選項(xiàng)與初代進(jìn)行比較,其二項(xiàng)式表達(dá)為
(14)
(3)選擇
本章的選擇操作基于貪婪準(zhǔn)則,根據(jù)目標(biāo)函數(shù)的適應(yīng)度作為參考指標(biāo),并將適應(yīng)度更優(yōu)的智能體替換原有的智能體并迭代到新的智能體系統(tǒng)中。具體數(shù)學(xué)表示如下:
(15)
式中,f(·)為適應(yīng)度函數(shù),一般將所要優(yōu)化的目標(biāo)函數(shù)為適應(yīng)度函數(shù)。
MCA算法通過獲取社會(huì)經(jīng)驗(yàn)和個(gè)體認(rèn)知經(jīng)驗(yàn),并結(jié)合群智能體的自組織行為將分布式協(xié)同作戰(zhàn)環(huán)境下的多智能體系統(tǒng)[28]作為初代群,計(jì)算群內(nèi)每個(gè)個(gè)體的適應(yīng)度函數(shù),確定其學(xué)習(xí)步長(zhǎng),通過對(duì)智能體的自利行為、全局收益最大化、不確定性推理的分析與建模確定其轉(zhuǎn)移方向之后再更新智能體狀態(tài),再對(duì)初代群進(jìn)行變異操作之后,將多個(gè)初代智能體按照一定的規(guī)則進(jìn)行交叉重組生成新的智能體,實(shí)現(xiàn)群進(jìn)化。再如此反復(fù)循環(huán),直至獲得全局最優(yōu)解。具體流程圖如圖1所示。
圖1 MAC算法流程圖
MAC算法的基本步驟如下。
步驟 1根據(jù)數(shù)學(xué)模型,確定智能體系統(tǒng)的適應(yīng)度函數(shù),即目標(biāo)函數(shù)。
步驟 2初始化MAC算法的基本參數(shù),即智能體系統(tǒng)中智能體的個(gè)數(shù)、角色、能力、約束限制、空間維數(shù)、群規(guī)模NP、縮放因子F、變異因子CR、空間維數(shù)N等。
步驟 3令t=0初始種群,隨機(jī)定義s個(gè)初始坐標(biāo):
{xi(t)|xi(t)=(xi1,xi2,…,xi j,…,xiM)}
(16)
式中,i=1,2,…,s;j=1,2,…,M;M是解的維數(shù)。
步驟 4評(píng)估并確定狀態(tài)轉(zhuǎn)移策略:計(jì)算每個(gè)智能體i的目標(biāo)函數(shù)值與其在維度j的狀態(tài)轉(zhuǎn)移方向di, j(t)及學(xué)習(xí)步長(zhǎng)αi, j(t)值。
步驟 5狀態(tài)轉(zhuǎn)移:令t=t+1,按照公式計(jì)算更新智能體狀態(tài)。
步驟 6根據(jù)適應(yīng)度函數(shù)判斷是否停止智能體狀態(tài)更新,當(dāng)適應(yīng)度函數(shù)趨于平穩(wěn)時(shí),則對(duì)多智能體系統(tǒng)進(jìn)行進(jìn)化操作。
步驟 9終止算法判定:當(dāng)進(jìn)化后的多智能體系統(tǒng)適應(yīng)度函數(shù)值達(dá)到最優(yōu)且趨于平穩(wěn)則轉(zhuǎn)至步驟3,直至全局適應(yīng)度趨于平穩(wěn),停止算法,輸出結(jié)果。
其中,每次狀態(tài)轉(zhuǎn)移的步長(zhǎng)t分別計(jì)算每個(gè)智能體i在j的轉(zhuǎn)移方向di j(t)和學(xué)習(xí)步長(zhǎng)αi j(t),且αi j(t)≥0,di j(t)∈{1,0,-1},i=1,2,…,s;j=1,2,…,M。按照公式進(jìn)行狀態(tài)更新,通過不斷更新智能體狀態(tài),獲得更好的狀態(tài)函數(shù)值。接著對(duì)智能體系統(tǒng)采取變異進(jìn)化操作,如此反復(fù)迭代,直到達(dá)到算法終止條件,得到較好的結(jié)果。
基于前文對(duì)算法原理的分析,本論文采用MCA算法對(duì)指揮控制系統(tǒng)進(jìn)行多智能體協(xié)同優(yōu)化模型進(jìn)行求解。在對(duì)多平臺(tái)協(xié)同問題進(jìn)行求解的基礎(chǔ)上,通過對(duì)每個(gè)目標(biāo)進(jìn)行優(yōu)化、變異、交叉、選擇等步驟建立最優(yōu)解集,最后生成決策方案。
MCA流程如圖2所示,將每一個(gè)作戰(zhàn)單元視為一個(gè)智能體,通過計(jì)算個(gè)體自利行為、全局收益最大化等更新計(jì)算個(gè)體,使得種群最優(yōu)個(gè)體隨著迭代次數(shù)更新保存下來。具體求解步驟如下。
圖2 算法實(shí)現(xiàn)過程
步驟 1初始化算法參數(shù)。即智能體系統(tǒng)中智能體的個(gè)數(shù)、角色、能力、約束限制等。
步驟 2計(jì)算每個(gè)智能體個(gè)體在每個(gè)維度的搜索方向與學(xué)習(xí)步長(zhǎng)。
步驟 3個(gè)體更新。
步驟 4初始化種群。在可行解域內(nèi)隨機(jī)產(chǎn)生s個(gè)初始位置,每個(gè)智能體種群個(gè)體為
{xi(t)|xi(t)=(xi1,xi2,…,xi j,…,xiM)}
(17)
步驟 5變異操作。對(duì)初始化智能體種群進(jìn)行變異操作,得到變異智能體與候選智能體。
步驟 6交叉操作。對(duì)變異智能體進(jìn)行交叉,從父代智能體與變異智能體中選出最優(yōu)的遺傳到下一代的基因。
步驟 7選擇操作。對(duì)當(dāng)代個(gè)體的適應(yīng)度進(jìn)行選擇。
步驟 8當(dāng)進(jìn)化后的多智能體系統(tǒng)適應(yīng)度函數(shù)值直至全局適應(yīng)度趨于平穩(wěn),停止算法,否則返回步驟3。
步驟 9生成并判斷選擇最優(yōu)解集合。
本節(jié)將介紹多智能體指控系統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)設(shè)計(jì),主要分為對(duì)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)與其中部分重點(diǎn)問題的解析,以及對(duì)多智能體系統(tǒng)的協(xié)同演化訓(xùn)練算法的設(shè)計(jì)。針對(duì)其中的博弈決策、協(xié)同進(jìn)化算法進(jìn)行介紹,后文將對(duì)該部分內(nèi)容進(jìn)行優(yōu)化與深入研究,使本文設(shè)計(jì)的多智能體指控系統(tǒng)可以更符合分布式協(xié)同作戰(zhàn)環(huán)境。
其中多智能體指控模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)結(jié)構(gòu)可以劃分為3部分:態(tài)勢(shì)輸入,決策計(jì)算,決策輸出。態(tài)勢(shì)輸入數(shù)據(jù)分為4類:第一類為紅方要地的狀態(tài),包括要地基本信息,要地正在受攻擊的狀況;第二類為紅方防空營(yíng)的狀態(tài),包括防空營(yíng)當(dāng)前的配置情況,雷達(dá)的工作狀態(tài),發(fā)射車的工作狀態(tài),雷達(dá)受攻擊的狀況,防空營(yíng)能夠打擊的敵方單位信息;第三類為敵方單位的狀態(tài),包括敵方單位基本信息,被紅方導(dǎo)彈攻擊的狀況;第四類為可被攻擊的敵方單位的狀態(tài),包括可被紅方防空營(yíng)打擊的狀況。每類數(shù)據(jù)的單位數(shù)量不固定,隨著戰(zhàn)場(chǎng)形勢(shì)而變化。決策計(jì)算部分:每類態(tài)勢(shì)數(shù)據(jù)各自經(jīng)過兩層全連接網(wǎng)絡(luò)提取出態(tài)勢(shì)特征,然后全部組合連接起來組成全局態(tài)勢(shì)特征,再經(jīng)過一層全連接網(wǎng)絡(luò)進(jìn)行決策推理,再經(jīng)過一個(gè)門控循環(huán)單元(gated recurrent unit, GRU)層保留需要記憶的數(shù)據(jù)。
圖3 訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)
決策輸出部分:GRU層一方面輸出動(dòng)作謂語,另一方面與備選敵方單位計(jì)算attention分?jǐn)?shù),輸出動(dòng)作賓語。
3.1.1 門控循環(huán)單元網(wǎng)絡(luò)
門控循環(huán)單元網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)中的一種。在原有基礎(chǔ)上,引入門機(jī)制作為信息更新的方式。在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中,輸入門和遺忘門是互補(bǔ)關(guān)系,用兩個(gè)門的比值作為冗余。GRU將輸入門與和遺忘門結(jié)合生成新的門機(jī)制:更新門。同時(shí),GRU直接定義當(dāng)前狀態(tài)ht和歷史狀態(tài)ht-1之間存在線性依賴關(guān)系。
(18)
GRU網(wǎng)絡(luò)的隱狀態(tài)ht更新方式為
(19)
式中,z∈[0,1],定義為更新門,用來判斷當(dāng)前狀態(tài)是否保留上一狀態(tài)的部分信息,以及是否更新候選狀態(tài)信息,且Zt=σ(Wzxt+Uzht-1+bz)。
當(dāng)zt=0時(shí),當(dāng)前狀態(tài)ht和上一狀態(tài)ht-1之間不存在線性關(guān)系。若同時(shí)存在zt=0,r=1時(shí),GRU網(wǎng)絡(luò)退化為普通的循環(huán)網(wǎng)絡(luò);若同時(shí)存在zt=0,r=0時(shí),當(dāng)前狀態(tài)ht只和當(dāng)前輸入xt相關(guān),和上一狀態(tài)ht-1無關(guān)。圖4是GRU循環(huán)單元結(jié)構(gòu)。
圖4 GRU單元
3.1.2 狀態(tài)數(shù)據(jù)的標(biāo)準(zhǔn)化與過濾
狀態(tài)數(shù)據(jù)標(biāo)準(zhǔn)化是輸入網(wǎng)絡(luò)之前的一個(gè)必要步驟。狀態(tài)的原始數(shù)據(jù)包含各類數(shù)據(jù):例如雷達(dá)車位置、飛機(jī)速度、飛機(jī)載彈量、敵方單位的威脅度等。此類數(shù)據(jù)的單位和量級(jí)各不相同,在輸入神經(jīng)網(wǎng)絡(luò)之前,必須進(jìn)行歸一化處理。戰(zhàn)斗過程中,某些作戰(zhàn)單位后來加入戰(zhàn)局中,某些單位被打掉,其數(shù)據(jù)就沒有了,神經(jīng)網(wǎng)絡(luò)需要兼容這些情況。
不同單位在不同時(shí)間點(diǎn)有不同的狀態(tài),因此決策選擇某些單位執(zhí)行某項(xiàng)任務(wù)時(shí),需要剔除那些在此時(shí)間點(diǎn)上不能執(zhí)行此項(xiàng)任務(wù)的參戰(zhàn)單元。例如,導(dǎo)彈發(fā)射車兩次發(fā)射導(dǎo)彈之間必須有一定的時(shí)間間隔,導(dǎo)彈車必須連接上雷達(dá)車才能發(fā)射導(dǎo)彈。
3.1.3 偏好度機(jī)制與目標(biāo)選擇
偏好度機(jī)制是一種讓智能體在某個(gè)時(shí)間點(diǎn)重點(diǎn)關(guān)注某些信息,忽略其他信息的機(jī)制,它能夠讓智能體在局部區(qū)域更快速更精確的做出更優(yōu)的決策。
當(dāng)神經(jīng)網(wǎng)絡(luò)面臨大量輸入的態(tài)勢(shì)信息時(shí),也可以借鑒人類的注意力機(jī)制,只選擇一些關(guān)鍵的信息進(jìn)行處理,偏好度機(jī)制也可稱為注意力網(wǎng)絡(luò)。模型中,我們可以將最大匯聚、門控機(jī)制來近似地模擬,看作是自下而上的基于顯著性的注意力機(jī)制。除此之外,自上而下的會(huì)聚式注意力也是一種有效的信息選擇方式。以輸入大篇文字為例,給定一篇文章,然后對(duì)其內(nèi)容進(jìn)行提取并假設(shè)一定數(shù)量的問題,提出的問題只和文中部分內(nèi)容相關(guān),與其余部分無關(guān)。為降低解算壓力,僅需要把挑選相關(guān)內(nèi)容讓神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。
定義X=[x1,x2,…,xN]為N個(gè)輸入信息,首先計(jì)算在給定q和X下,選擇第i個(gè)輸入信息的概率ai,則定義ai為
(20)
式中,ai為注意力分布;s(xi,q)為注意力打分函數(shù),計(jì)算模型如下:
(1)加性模型:s(xi,q)=vTtanh(Wxi+Uq);
(21)
此公式稱為軟性注意力機(jī)制,圖5給出軟性注意力機(jī)制的示例。在防空反導(dǎo)紅藍(lán)對(duì)抗的場(chǎng)景下,計(jì)算動(dòng)作中的主語和賓語均可以采用注意力機(jī)制。例如在計(jì)算賓語時(shí),輸入數(shù)據(jù)x為當(dāng)前可選的所有敵方目標(biāo),而q為網(wǎng)絡(luò)前面部分輸出的查詢向量。
圖5 偏好度機(jī)制
3.2.1 就近策略優(yōu)化算法
就近策略優(yōu)化(proximal policy optimization,PPO)屬于Actor-Critic強(qiáng)化學(xué)習(xí)優(yōu)化算法中的一類[29],其與Q-Learning等value-based方法不同,它是直接通過優(yōu)化策略函數(shù),計(jì)算累積期望回報(bào)的策略梯度,從而求解出使得回報(bào)整體最大化的策略參數(shù)。
定義PPO的累積期望回報(bào)的目標(biāo)函數(shù)為
(22)
式中,
(23)
At為優(yōu)勢(shì)估計(jì)函數(shù):
s.t.δt=rt+γV(st+1)-V(st)
(24)
算法1 PPO算法描述初始化策略參數(shù)θ,θold重復(fù)每輪更新重復(fù)每個(gè)Actor重復(fù)T步每步使用舊的策略參數(shù)θold產(chǎn)生決策計(jì)算每一步中的優(yōu)勢(shì)估計(jì)A迭代K步求解累積期望回報(bào)函數(shù)的策略梯度,每次使用小批量數(shù)據(jù)用策略梯度更新θ策略參數(shù)更新新的策略參數(shù)至θold
算法1中的θold與θ分別指的是策略近似函數(shù)的舊參數(shù)與新參數(shù),也可描述為更新前的策略函數(shù)與當(dāng)前新的策略函數(shù),PPO的主要思想是在舊策略函數(shù)的基礎(chǔ)上進(jìn)行多次更新,但又不讓更新后的策略偏離原來的策略函數(shù)過大。
在每次迭代中,算法并行運(yùn)行N個(gè)Actor,每個(gè)Actor運(yùn)行T步,共收集NT步的數(shù)據(jù),在每一步中會(huì)計(jì)算優(yōu)勢(shì)估計(jì)A1…AT。在完成數(shù)據(jù)的獲取后,將會(huì)用來更新策略參數(shù),其中累積期望回報(bào)的目標(biāo)函數(shù)如上面的L(θ)。在每輪中更新時(shí)迭代K次,每次選擇小批量的數(shù)據(jù)集,M≤NT。
3.2.2 協(xié)同行為的馬爾可夫決策過程
傳統(tǒng)的多智能體協(xié)同決策研究[30]主要集中在基于模型的研究上,即理性智能體研究。傳統(tǒng)的研究存在過于依賴背后模型準(zhǔn)確度等缺點(diǎn),只關(guān)注從模型到執(zhí)行器的設(shè)計(jì),而不關(guān)注模型的產(chǎn)生過程。智能對(duì)抗環(huán)境中,智能體種類多樣,對(duì)于多智能體難以獲得精準(zhǔn)的決策模型,且復(fù)雜的任務(wù)環(huán)境和態(tài)勢(shì)擾動(dòng),環(huán)境模型呈現(xiàn)一定的隨機(jī)性和時(shí)變性,這些都需要研究智能體模型在信息缺失下的控制方法(見圖6)。
圖6 多智能體協(xié)同行為決策模型研究框架
此研究框架中,其實(shí)質(zhì)是在轉(zhuǎn)移概率模型未知的條件下求解馬爾可夫決策過程(Markov decision process, MDP)[31]問題。
設(shè)MDP四元素(S,A,r,p):狀態(tài)(S),動(dòng)作(A),獎(jiǎng)勵(lì)函數(shù)(r),轉(zhuǎn)移概率(p);馬爾可夫性:p(st+1|s0,a0,…,st,at)=p(st+1|st,at);策略函數(shù)π:S→A或π:S×A→[0,1];
優(yōu)化目標(biāo):求解最優(yōu)的策略函數(shù)π*,最大化期望累積獎(jiǎng)勵(lì)值:
s.t.st+1~p(·|st,at),at~π(·|st),t=0,…,T-1
(25)
其方法是利用強(qiáng)化學(xué)習(xí)算法在p(st+1|st,at)未知情況下求解MDP,核心思路是采用時(shí)間差分算法估計(jì)動(dòng)作-值函數(shù):
(26)
Qπ(st,at)←Qπ(st,at)+
α[r(st,at)+γmaxaQπ(st+1,a)-Qπ(st,at)]
(27)
π′(s)=argmaxaQπ(s,a)
(28)
在該研究框架下,對(duì)于智能體狀態(tài)進(jìn)行了設(shè)計(jì),滿足合理性、完整性等條件。合理性要求物理意義相近的狀態(tài)在數(shù)值上差異也較小,以發(fā)射車的發(fā)射角度θ為例,由于θ是周期性變量,直接將θ作為狀態(tài)的一部分存在數(shù)值不合理性,應(yīng)將發(fā)射角θ→[cosθ,sinθ]。
完整性要求狀態(tài)包含了智能體決策需要的所有信息,比如智能體的軌跡追蹤問題中,需要加入目標(biāo)軌跡的趨勢(shì)信息,但是如果這一信息無法觀測(cè),則需要擴(kuò)充狀態(tài)包含歷史的觀測(cè)值,如艦船的觀測(cè)尾跡。
對(duì)于智能體行為決策的獎(jiǎng)勵(lì)函數(shù)進(jìn)行了設(shè)計(jì),根據(jù)實(shí)際任務(wù)中不同的控制目標(biāo)進(jìn)行設(shè)計(jì),如最高精度、最小損傷、最短反應(yīng)時(shí)間、攔截與條件限制等。
如某智能體獎(jiǎng)勵(lì)函數(shù):
ρ3w2(攔截概率限制)+ρ4q2(其他條件約束)+
uTRu(最大生存概率)]
(29)
對(duì)于智能體的動(dòng)作進(jìn)行了設(shè)計(jì),根據(jù)施加控制量的數(shù)值特點(diǎn)設(shè)計(jì)離散或連續(xù)的動(dòng)作值。
3.2.3 協(xié)同行為決策中的策略梯度
建立協(xié)同行為MDP決策模型,定義了MDP中的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)之后,多智能體的控制問題就轉(zhuǎn)化成求解一個(gè)MDP過程,即尋找最優(yōu)的策略π*。
由于智能體的運(yùn)動(dòng)通常采用連續(xù)的物理變量描述,因此建模的MDP也是狀態(tài)連續(xù),動(dòng)作連續(xù)的,此類問題適合采用策略梯度求解。
連續(xù)動(dòng)作空間情況下,假設(shè)一個(gè)參數(shù)化的策略函數(shù)πθ(a|s),沿著優(yōu)化目標(biāo)的梯度更新θ,保證每步迭代獲得一個(gè)“更好”的策略,傳統(tǒng)的策略提升步驟效率很低。
隨機(jī)策略梯度理論中策略函數(shù)形式滿足隨機(jī)分布的形式πθ(a|s),其優(yōu)點(diǎn)是采用隨機(jī)的策略函數(shù)形式自帶探索機(jī)制,不容易陷入局部最優(yōu),但是策略函數(shù)的形式一般受限。確定策略梯度理論的策略函數(shù)形式為確定的函數(shù)a=μθ(s),其優(yōu)點(diǎn)是策略梯度形式簡(jiǎn)單,確定的函數(shù)形式更靈活,易與神經(jīng)網(wǎng)絡(luò)結(jié)合,缺點(diǎn)是需要人工添加噪聲來提供探索機(jī)制。
兩種策略函數(shù)形式的策略梯度均滿足某個(gè)分布的期望形式—隨機(jī)逼近。策略梯度轉(zhuǎn)化為如何沿著實(shí)驗(yàn)軌跡采樣獲得{s_1,a_1,s_2,a_2,…s_N,a_N}的問題。采樣過程中,樣本不獨(dú)立,存在時(shí)序相關(guān)性。采用不獨(dú)立樣本估計(jì)的期望可能不是無偏的。可以設(shè)計(jì)一個(gè)經(jīng)驗(yàn)池R存儲(chǔ)每次實(shí)驗(yàn)采集的轉(zhuǎn)移數(shù)據(jù),計(jì)算策略梯度時(shí)從經(jīng)驗(yàn)池中隨機(jī)抽取N組樣本。
當(dāng)前深度強(qiáng)化學(xué)習(xí)算法基于actor-critic策略,構(gòu)建迭代更新的(環(huán)境、動(dòng)作、反饋、策略),重點(diǎn)解決反饋函數(shù)的構(gòu)建、策略更新機(jī)制。當(dāng)前滿足實(shí)踐檢驗(yàn)的智能體策略演進(jìn)機(jī)理分為多智能體深度Q值網(wǎng)絡(luò)(multi-agent deep Q network, MADQN)、智能體深度確定策略梯度(multi-agent deep deterministic policy gradient, MADDPG)以及智能體近似策略優(yōu)化(multi-agent proximal policy optimization, MAPPO)3類算法。
本章選定RosenBrock函數(shù)作為測(cè)試MCA的標(biāo)準(zhǔn)測(cè)試函數(shù),函數(shù)如表1所示。
表1 無約束優(yōu)化測(cè)試函數(shù)
本文選取的實(shí)驗(yàn)數(shù)據(jù)是公共數(shù)據(jù)集中的部分算例,參數(shù)設(shè)定為:初始種群個(gè)數(shù)為500,交叉概率為0.8,變異概率為0.1。圖7是MCA算法的收斂趨勢(shì)函數(shù)。從圖7可以看出,當(dāng)?shù)?×103左右時(shí),種群多樣性短暫平穩(wěn),迭代到10×103左右時(shí),多樣性函數(shù)進(jìn)行平穩(wěn)狀態(tài),迭代10×103~30×103,函數(shù)值存在短暫振蕩,但是大體平穩(wěn),但是當(dāng)?shù)?0×103時(shí),算法函數(shù)值下降至7.7左右,并趨向于平穩(wěn)。MCA算法能夠有效的維持種群的多樣性,避免了算法早熟收斂,極大程度提高了算法的搜索性能。接下來將以損失值作為研究對(duì)象,通過分析損失值的變化特性驗(yàn)證算法的可靠性,具體如圖8所示。
圖7 MCA收斂趨勢(shì)
圖8 算法損失值迭代分析
通過分析可知:隨著迭代次數(shù)增加,損失值呈跌宕遞減,但是總體平均值呈遞減趨勢(shì),當(dāng)?shù)? 500×103左右時(shí),損失值開始趨于平穩(wěn)。由此可以證明算法的可靠性,提高了原有多智能體系統(tǒng)處理復(fù)雜任務(wù)的效率。
智能體在訓(xùn)練過程中需要與環(huán)境交互,這也是限制軍事智能發(fā)展的主要原因。因此,必須將物理環(huán)境較好地映射到虛擬環(huán)境中,針對(duì)性的打造數(shù)字戰(zhàn)場(chǎng),提供仿真訓(xùn)練的基礎(chǔ)保障,本文空地對(duì)抗數(shù)字戰(zhàn)場(chǎng)要素設(shè)置如下。
5.1.1 紅方兵力設(shè)置及能力指標(biāo)
(1)保衛(wèi)要地2個(gè):指揮所、機(jī)場(chǎng);
(2)預(yù)警機(jī)1架:探測(cè)范圍400 km;
(3)遠(yuǎn)程火力單元組成:1輛遠(yuǎn)程火控雷達(dá)車(可同時(shí)跟蹤8個(gè)藍(lán)方目標(biāo),制導(dǎo)16枚防空導(dǎo)彈,最大探測(cè)距離200 km,扇區(qū)120°)、8輛遠(yuǎn)程導(dǎo)彈發(fā)射車(可兼容遠(yuǎn)程/進(jìn)程防空導(dǎo)彈,每輛發(fā)射車裝載3枚遠(yuǎn)程防空導(dǎo)彈和4枚近程防空導(dǎo)彈);
(4)近程火力單元組成:1輛近程火控雷達(dá)車(可同時(shí)跟蹤4個(gè)敵方目標(biāo),制導(dǎo)8枚防空導(dǎo)彈,最大探測(cè)距離60 km,扇區(qū)360°)、3輛近程導(dǎo)彈發(fā)射車(每輛發(fā)射車裝載4枚近程防空導(dǎo)彈)。
若火控雷達(dá)被摧毀,該火力單元失去作戰(zhàn)能力;制導(dǎo)過程雷達(dá)需要全程開機(jī);開機(jī)時(shí)會(huì)輻射電磁波,從而被對(duì)手捕捉,暴露自身位置;火控雷達(dá)受地球曲率及地物遮蔽等物理限制,存在盲區(qū)。
防空導(dǎo)彈飛行軌跡為最佳能量彈道,攔截遠(yuǎn)界為160 km(遠(yuǎn)程)、40 km(近程)。針對(duì)無人機(jī)、戰(zhàn)斗機(jī)、轟炸機(jī)、反輻射導(dǎo)彈、空對(duì)地導(dǎo)彈在殺傷區(qū)的高殺傷概率為75%,低殺傷概率為55%,針對(duì)巡航導(dǎo)彈在殺傷區(qū)的高殺傷概率為45%,低殺傷概率為35%。
由4個(gè)遠(yuǎn)程火力單元加3個(gè)近程火力單元扇形部署保衛(wèi)紅方指揮所,由2個(gè)遠(yuǎn)程火力單元加3個(gè)近程火力單元扇形部署保衛(wèi)紅方機(jī)場(chǎng)。共12個(gè)火力單元,144枚遠(yuǎn)程導(dǎo)彈,264枚近程導(dǎo)彈。
5.1.2 藍(lán)方兵力設(shè)置及能力指標(biāo)
(1)巡航導(dǎo)彈:18枚;
(2)無人機(jī):20架,每架攜帶2枚反輻射導(dǎo)彈和1枚空對(duì)地導(dǎo)彈;
(3)戰(zhàn)斗機(jī):12架,每架攜帶6枚反輻射導(dǎo)彈和2枚空對(duì)地導(dǎo)彈;
(4)轟炸機(jī):4架;
(5)反輻射導(dǎo)彈射程110 km,命中率80%;空對(duì)地導(dǎo)彈射程60 km,命中率80%;
(6)干擾機(jī):2架,進(jìn)行防區(qū)外遠(yuǎn)距離支援干擾,干擾扇區(qū)15°,紅方雷達(dá)受到干擾后,降低一半殺傷概率。
5.1.3 對(duì)抗過程
藍(lán)方共展開3個(gè)波次的進(jìn)攻,第一個(gè)波次由18枚巡航導(dǎo)彈分為兩條突防路線攻擊指揮所及機(jī)場(chǎng),巡航彈飛行高度100 m進(jìn)行超低空突防,受地球曲率影響,紅方火控雷達(dá)截獲目標(biāo)的距離僅有40 km左右。因此,需要紅方合理規(guī)劃資源,在保證攔截的同時(shí),盡可能減小彈藥消耗。巡航導(dǎo)彈超低空突防如圖9所示。
圖9 巡航導(dǎo)彈超低空突防
第二波次為20架無人機(jī)掩護(hù)下12架戰(zhàn)斗機(jī)超低空突防攻擊要地,同時(shí)摧毀暴露的防空陣地。如圖10和圖11所示。
圖10 無人機(jī)突防
圖11 發(fā)射反輻射導(dǎo)彈
對(duì)于更具有對(duì)抗性第二個(gè)波次進(jìn)攻,將增強(qiáng)藍(lán)方的對(duì)抗性。如圖11所示,戰(zhàn)斗機(jī)在無人機(jī)的掩護(hù)下突防。無人機(jī)飛行高度在2 000~3 000 m之間,誘使紅方火控雷達(dá)開機(jī),戰(zhàn)斗機(jī)在100~150 m的超低空突防(受地球曲率保護(hù),在火控雷達(dá)盲區(qū)安全飛行)。如圖12所示,當(dāng)紅方火控雷達(dá)開機(jī)后,戰(zhàn)斗機(jī)爬升到達(dá)擊區(qū)域,與紅方火控雷達(dá)形成通視,發(fā)射反輻射彈攻擊;攻擊之后下降高度機(jī)動(dòng)逃逸,進(jìn)入游獵狀態(tài),組織再次攻擊。對(duì)于紅方而言,防御壓力很大,既要攔截?zé)o人機(jī)和戰(zhàn)斗機(jī),也要攔截所有作戰(zhàn)飛機(jī)發(fā)射的大量空對(duì)地導(dǎo)彈和反輻射彈。由于紅方火控雷達(dá)跟蹤目標(biāo)數(shù)量及制導(dǎo)導(dǎo)彈數(shù)量受限制,資源很容易進(jìn)入飽和狀態(tài)。這時(shí),第三波次的4架轟炸機(jī)緊隨其后,突防轟炸保衛(wèi)要地。如圖13所示。
圖12 機(jī)動(dòng)逃逸
圖13 轟炸機(jī)突防
本節(jié)將從強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)、全局收益函數(shù)、全局損失函數(shù)3個(gè)方面對(duì)系統(tǒng)進(jìn)行演示分析,當(dāng)?shù)螖?shù)為2 500~3 000×103之間,基本達(dá)到全局收益最大值,并趨于平穩(wěn)。由圖14可得出結(jié)論,隨著訓(xùn)練迭代進(jìn)行,全局收益由一個(gè)低水平持續(xù)一段時(shí)間后逐漸遞增,期間存在小范圍的跌宕,最后達(dá)到全局收益最優(yōu)點(diǎn),并趨于收斂。具體如圖14所示。
圖14 全局收益函數(shù)
圖15為強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的圖形化展示,對(duì)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行三維的坐標(biāo)系建立,圖中每個(gè)點(diǎn)都代表智能體的一個(gè)性能指標(biāo),所處位置則代表該指標(biāo)的具體參數(shù)值,代表此時(shí)智能體的狀態(tài)函數(shù)。隨著迭代次數(shù)增加,智能體進(jìn)行狀態(tài)轉(zhuǎn)移,點(diǎn)的坐標(biāo)信息也會(huì)隨之發(fā)生變化,本文指控系統(tǒng)中針對(duì)多智能體系統(tǒng)共定義兩千余參數(shù),具體由圖15所示。
圖15 訓(xùn)練學(xué)習(xí)網(wǎng)絡(luò)
隨著迭代次數(shù)增加,全局收益增加,隨著對(duì)應(yīng)的全局損失值逐漸減小,當(dāng)算法趨于全局最優(yōu)時(shí),損失函數(shù)趨于平穩(wěn),存在小范圍浮動(dòng),函數(shù)變化軌跡與圖14相對(duì)應(yīng),以保證戰(zhàn)場(chǎng)態(tài)勢(shì)總量不變。具體損失值函數(shù)如圖16所示。
圖16 全局損失函數(shù)
由圖16可以得出,迭代初始,損失值呈快速下降的趨勢(shì),當(dāng)?shù)?00~1 000×103時(shí),損失值開始小幅度跌宕,但是平均值緩速下降,當(dāng)?shù)? 500×103左右時(shí),損失值開始趨于平穩(wěn),達(dá)到全局損失函數(shù)最小值。
本文基于分布式協(xié)同作戰(zhàn)的復(fù)雜任務(wù)處理過程中效率過低的問題,對(duì)多智能體系統(tǒng)設(shè)計(jì)了協(xié)同進(jìn)化算法,構(gòu)建了對(duì)應(yīng)的狀態(tài)轉(zhuǎn)移方程并確定了學(xué)習(xí)步長(zhǎng),最后對(duì)算法模型進(jìn)行了損失值的仿真實(shí)驗(yàn),證明了算法的可靠性,并將此算法作為指控模型仿真中的核心算法之一。