白宗磊,劉秀華,白天翔,孫科武
?空天防御體系與武器?
面向空天防御體系的多任務(wù)可控涌現(xiàn)機(jī)制研究*
白宗磊1,2,劉秀華1,2,白天翔1,2,孫科武1,2
(1.航天科工集團(tuán)智能科技研究院有限公司,北京 100043; 2.航天防務(wù)智能系統(tǒng)與技術(shù)科研重點(diǎn)實(shí)驗(yàn)室,北京 100043)
群體智能涌現(xiàn)研究對(duì)于人們理解自然界規(guī)律,優(yōu)化社會(huì)管理,推進(jìn)知識(shí)創(chuàng)新有重要作用,空天防御體系為群體智能涌現(xiàn)提供了研究和應(yīng)用的新場(chǎng)景。然而,空天防御體系是典型的非線性系統(tǒng),系統(tǒng)的可控涌現(xiàn)面臨狀態(tài)空間指數(shù)爆炸、動(dòng)態(tài)過(guò)程建模復(fù)雜、性能分析困難等問(wèn)題。面向戰(zhàn)場(chǎng)防御場(chǎng)景,針對(duì)空天防御體系面臨的大規(guī)模目標(biāo)應(yīng)對(duì)、復(fù)雜任務(wù)場(chǎng)景適配、多任務(wù)協(xié)調(diào)配合、復(fù)雜系統(tǒng)設(shè)計(jì)等問(wèn)題,開(kāi)展了面向空天防御體系的可控涌現(xiàn)機(jī)制研究,探究空天防御體系的涌現(xiàn)機(jī)制,為提升空天防御體系的多目標(biāo)應(yīng)對(duì)能力、場(chǎng)景快速適配能力和空天防御體系要素之間的有效協(xié)調(diào)配合能力提供新視角。
群體智能涌現(xiàn);空天防御體系;可控涌現(xiàn);復(fù)雜系統(tǒng);多智能體強(qiáng)化學(xué)習(xí)
涌現(xiàn)(emergence)是一種自然現(xiàn)象,當(dāng)一組簡(jiǎn)單個(gè)體的局部規(guī)則或相互作用在更高層次上產(chǎn)生復(fù)雜的全局行為時(shí),就會(huì)發(fā)生涌現(xiàn)[1]。在涌現(xiàn)中,每個(gè)單體都只關(guān)注自己周?chē)木植啃畔?,并根?jù)一定的規(guī)則進(jìn)行決策和行動(dòng),最終形成了整體的行為[2]。這種整體行為可以帶來(lái)許多優(yōu)勢(shì),如提高效率、減少誤差、增強(qiáng)魯棒性等[3]。
多智能體系統(tǒng)[4]的涌現(xiàn)包括基于簡(jiǎn)單規(guī)則[5]的涌現(xiàn)和基于群體智能[6]的涌現(xiàn)[7]?;诤?jiǎn)單規(guī)則的涌現(xiàn)指的是每個(gè)個(gè)體均遵從簡(jiǎn)單的動(dòng)作規(guī)則和交互規(guī)則,整個(gè)系統(tǒng)形成一個(gè)復(fù)雜網(wǎng)絡(luò)[8],這一涌現(xiàn)機(jī)制廣泛存在于簡(jiǎn)單的物理系統(tǒng)和機(jī)械結(jié)構(gòu)中,以及低等生物群體中[1,8];基于群體智能的涌現(xiàn)是指當(dāng)一群具有自適應(yīng)能力和學(xué)習(xí)能力的智能體交互協(xié)作時(shí),所表現(xiàn)出來(lái)的整體行為,超出了單體能力的簡(jiǎn)單加和,并且難以通過(guò)單體行為而被預(yù)測(cè)或解釋[9-10]。這種涌現(xiàn)現(xiàn)象在自然界和人工系統(tǒng)中都非常常見(jiàn),例如蟻群、神經(jīng)元網(wǎng)絡(luò)系統(tǒng)、人體免疫系統(tǒng)[1]、互聯(lián)網(wǎng)和全球經(jīng)濟(jì)系統(tǒng)[9]等多智能體系統(tǒng)。
隨著人工智能技術(shù)的發(fā)展,現(xiàn)代化設(shè)備均具有一定的通信能力和數(shù)據(jù)處理能力,支持構(gòu)造多智能體系統(tǒng),并基于多智能體的涌現(xiàn)機(jī)制來(lái)應(yīng)對(duì)強(qiáng)動(dòng)態(tài)、高復(fù)雜任務(wù)場(chǎng)景[11-13],如空天防御場(chǎng)景。然而多智能體系統(tǒng)是典型的非線性系統(tǒng),面臨狀態(tài)空間指數(shù)爆炸、動(dòng)態(tài)過(guò)程建模復(fù)雜、性能分析困難等問(wèn)題[14-16]。
針對(duì)空天防御場(chǎng)景下多智能體系統(tǒng)面臨的復(fù)雜性問(wèn)題,本文研究多智能體系統(tǒng)模型表征方法,探究群體智能的涌現(xiàn)機(jī)制,設(shè)計(jì)更好的涌現(xiàn)算法和系統(tǒng)來(lái)實(shí)現(xiàn)多智能體系統(tǒng)的可控涌現(xiàn),為提升空天防御系統(tǒng)大規(guī)模目標(biāo)應(yīng)對(duì)、復(fù)雜任務(wù)場(chǎng)景適配和多任務(wù)協(xié)調(diào)配合能力奠定基礎(chǔ)。
本文使用圖網(wǎng)絡(luò)模型來(lái)構(gòu)建多智能體系統(tǒng)的協(xié)同關(guān)系,使用節(jié)點(diǎn)來(lái)描述單個(gè)智能體,每個(gè)點(diǎn)附帶屬性描述,抽象描述智能體的狀態(tài)參數(shù)。在人類(lèi)社會(huì)和經(jīng)濟(jì)組織中,傳統(tǒng)的多智能體協(xié)同關(guān)系可以抽象為樹(shù)狀結(jié)構(gòu),各個(gè)子系統(tǒng)之間的交流必須通過(guò)父節(jié)點(diǎn)的中轉(zhuǎn)。樹(shù)狀體系各個(gè)子組件具有內(nèi)部要素緊耦合、外部要素松耦合的特性,各個(gè)子系統(tǒng)之間的聯(lián)系必須依賴于中心節(jié)點(diǎn),存在決策鏈路長(zhǎng),決策效率低的問(wèn)題,難以應(yīng)對(duì)強(qiáng)動(dòng)態(tài)、高復(fù)雜的任務(wù)場(chǎng)景,一種自然的方案是在子系統(tǒng)之間建立連接,形成網(wǎng)絡(luò)協(xié)同機(jī)制,基于多智能體系統(tǒng)的涌現(xiàn)機(jī)制來(lái)應(yīng)對(duì)復(fù)雜任務(wù)。因此,本文使用圖結(jié)構(gòu)來(lái)建模多智能體系統(tǒng)的耦合關(guān)系,基于網(wǎng)絡(luò)科學(xué)理論來(lái)分析多智能體系統(tǒng)的涌現(xiàn)現(xiàn)象。
研究涌現(xiàn)現(xiàn)象首先需要對(duì)研究對(duì)象進(jìn)行合理建模,為了清晰地刻畫(huà)多智能體的交互作用所誘導(dǎo)出的涌現(xiàn)現(xiàn)象,對(duì)于單個(gè)智能體要盡可能使用簡(jiǎn)單的屬性來(lái)表征出個(gè)體本質(zhì)的動(dòng)作規(guī)律。針對(duì)典型多智能體系統(tǒng),抽象3種類(lèi)型的智能體作為節(jié)點(diǎn),構(gòu)建協(xié)同網(wǎng)絡(luò)來(lái)建模多智能體系統(tǒng)。根據(jù)要素功能分為3類(lèi)節(jié)點(diǎn),分別為感知節(jié)點(diǎn)、控制節(jié)點(diǎn)、執(zhí)行節(jié)點(diǎn),將3種節(jié)點(diǎn)的動(dòng)作規(guī)則定義如下:
(1) 感知節(jié)點(diǎn)(VS):該類(lèi)節(jié)點(diǎn)具備空間感知能力,感知空間目標(biāo)信息并發(fā)送給控制節(jié)點(diǎn)。
(2) 控制節(jié)點(diǎn)(VD):該類(lèi)節(jié)點(diǎn)具備控制、判斷能力,接收各類(lèi)感知節(jié)點(diǎn)或控制節(jié)點(diǎn)傳來(lái)的目標(biāo)信息,并及時(shí)進(jìn)行分析,做出決策,并以控制信息的形式傳輸?shù)娇刂乒?jié)點(diǎn)或執(zhí)行節(jié)點(diǎn)。
(3) 執(zhí)行節(jié)點(diǎn)(VJ):該類(lèi)節(jié)點(diǎn)的功能是接收控制節(jié)點(diǎn)的信息,執(zhí)行相應(yīng)的任務(wù)。
接下來(lái)給出典型的多智能體場(chǎng)景示例,以此為基礎(chǔ)進(jìn)行系統(tǒng)建模。本場(chǎng)景中各型體系要素的位置為隨機(jī)生成,包括感知單元、執(zhí)行單元、控制單元。場(chǎng)景中體系要素節(jié)點(diǎn)的位置分布如圖1所示,其中黃色點(diǎn)為執(zhí)行單元位置、藍(lán)色點(diǎn)為控制單元位置、紅色點(diǎn)為感知單元位置。
圖1 多智能體要素分布圖
對(duì)于探測(cè)、通信、執(zhí)行節(jié)點(diǎn),按照現(xiàn)實(shí)條件的約束,均存在一定的有效作用范圍。圖2展示了部分節(jié)點(diǎn)的有效作用范圍,以節(jié)點(diǎn)為圓心的圓盤(pán)內(nèi)表征了智能體的有效作用范圍。
圖2 多智能體分布與響應(yīng)范圍
接下來(lái)定義系統(tǒng)中節(jié)點(diǎn)之間的協(xié)同規(guī)則:在由感知節(jié)點(diǎn)、控制節(jié)點(diǎn)、執(zhí)行節(jié)點(diǎn)組成的多智能體網(wǎng)絡(luò)中,各節(jié)點(diǎn)之間的主要關(guān)系有以下幾類(lèi):
(1) 通信關(guān)系,如感知節(jié)點(diǎn)和控制節(jié)點(diǎn)之間的通信等,對(duì)應(yīng)的邊傳輸信息流;
(2) 控制關(guān)系,包括控制節(jié)點(diǎn)和執(zhí)行節(jié)點(diǎn)之間的關(guān)系、控制節(jié)點(diǎn)之間的關(guān)系等,該關(guān)系對(duì)應(yīng)的邊傳輸控制決策信息流;
(3) 協(xié)同關(guān)系,包括信息協(xié)同、資源協(xié)同,對(duì)應(yīng)的邊傳輸控制信息流。
基于上述的連通規(guī)則,使用貪婪策略即可生成滿足約束的多智能體協(xié)同網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)優(yōu)先與距離最近的節(jié)點(diǎn)連接,生成的網(wǎng)絡(luò)架構(gòu)如圖3所示。
圖3 基于貪婪規(guī)則的多智能體系統(tǒng)架構(gòu)
令表示所有節(jié)點(diǎn)集合,表示信息連邊集合,節(jié)點(diǎn)和邊構(gòu)成的圖=(,)表示多智能體系統(tǒng)。
如上所述,單個(gè)智能體實(shí)現(xiàn)的功能可以表示為節(jié)點(diǎn)的狀態(tài)集合,包括感知、通信、控制、執(zhí)行等動(dòng)作,智能體間的協(xié)同關(guān)系表示為圖網(wǎng)絡(luò)模型。在系統(tǒng)動(dòng)態(tài)運(yùn)行過(guò)程中,每個(gè)節(jié)點(diǎn)根據(jù)外部環(huán)境和相鄰節(jié)點(diǎn)的作用關(guān)系,可以從給定的動(dòng)作集合中選取動(dòng)作來(lái)執(zhí)行。
多智能體系統(tǒng)整體涌現(xiàn)出的性質(zhì)即為上述圖網(wǎng)絡(luò)模型所展現(xiàn)的性質(zhì),在動(dòng)態(tài)環(huán)境中,每個(gè)節(jié)點(diǎn)根據(jù)動(dòng)作規(guī)則和協(xié)同規(guī)則執(zhí)行動(dòng)作,改變自己的狀態(tài),整個(gè)體系的狀態(tài)隨之變化。通過(guò)協(xié)同作用,多智能體系統(tǒng)能夠涌現(xiàn)出超越單個(gè)智能體性能加和的性質(zhì)。而系統(tǒng)的涌現(xiàn)可以表征為系統(tǒng)的整體狀態(tài),如果存在某個(gè)狀態(tài)能夠滿足所需要的性質(zhì),那么通過(guò)設(shè)定單個(gè)智能體的規(guī)則使得系統(tǒng)處于這一狀態(tài),便可實(shí)現(xiàn)系統(tǒng)的可控涌現(xiàn)。但是,整個(gè)系統(tǒng)的狀態(tài)空間大小隨著節(jié)點(diǎn)個(gè)數(shù)的增加而指數(shù)增加,多智能體系統(tǒng)具有典型的非線性性質(zhì),無(wú)法通過(guò)單個(gè)節(jié)點(diǎn)性質(zhì)的簡(jiǎn)單疊加而推導(dǎo)出整個(gè)系統(tǒng)的性質(zhì),這使得可控涌現(xiàn)的研究十分困難,需要對(duì)狀態(tài)空間進(jìn)行詳細(xì)地?cái)?shù)學(xué)表征和研究。
本節(jié)討論多智能體系統(tǒng)的涌現(xiàn)過(guò)程,首先考慮智能體只遵從簡(jiǎn)單規(guī)則來(lái)執(zhí)行動(dòng)作和交互的情況。在應(yīng)對(duì)環(huán)境變化過(guò)程中,智能體執(zhí)行動(dòng)作并進(jìn)行交互,在網(wǎng)絡(luò)模型中形成感知-決策-執(zhí)行環(huán)的系統(tǒng)運(yùn)作方式,由此刻畫(huà)系統(tǒng)的涌現(xiàn)性質(zhì)。
2.1.1動(dòng)作規(guī)則
總體來(lái)說(shuō)感知節(jié)點(diǎn)的動(dòng)作包括感知、連接、信息傳輸;執(zhí)行節(jié)點(diǎn)的動(dòng)作包括接收控制信息,定位目標(biāo),執(zhí)行動(dòng)作;控制節(jié)點(diǎn)的動(dòng)作包括接收感知信息、接收?qǐng)?zhí)行節(jié)點(diǎn)狀態(tài)、發(fā)出控制命令等。
在整個(gè)運(yùn)行過(guò)程中,3類(lèi)節(jié)點(diǎn)遵循如下的規(guī)則建立連接,主要連接類(lèi)型分為感知節(jié)點(diǎn)、執(zhí)行節(jié)點(diǎn)與控制節(jié)點(diǎn)的連接以及控制節(jié)點(diǎn)之間的連接:
(1) 感知節(jié)點(diǎn)、執(zhí)行節(jié)點(diǎn)動(dòng)態(tài)地同控制節(jié)點(diǎn)建立連接關(guān)系,如果節(jié)點(diǎn)的連接數(shù)少于4,則會(huì)定期搜索周邊的控制節(jié)點(diǎn),并發(fā)送請(qǐng)求進(jìn)行連接。在某個(gè)節(jié)點(diǎn)出現(xiàn)問(wèn)題后,鄰接的感知和執(zhí)行節(jié)點(diǎn)可以迅速接入相鄰的控制節(jié)點(diǎn),即所有節(jié)點(diǎn)均會(huì)盡可能地保證接入網(wǎng)絡(luò)。
(2) 控制節(jié)點(diǎn)主動(dòng)與周邊的控制節(jié)點(diǎn)建立連接,保障網(wǎng)絡(luò)的連通性,如果相鄰的控制節(jié)點(diǎn)出現(xiàn)故障,則繼續(xù)搜尋新的控制節(jié)點(diǎn)建立連接。
如上所述,感知節(jié)點(diǎn)、執(zhí)行節(jié)點(diǎn)主要從屬于相鄰的控制節(jié)點(diǎn),而控制節(jié)點(diǎn)一方面可以控制相鄰的感知節(jié)點(diǎn)、執(zhí)行節(jié)點(diǎn)執(zhí)行動(dòng)作,另一方面可以與相鄰的控制節(jié)點(diǎn)進(jìn)行通信,由此構(gòu)成了控制網(wǎng)絡(luò)。
對(duì)于系統(tǒng)的運(yùn)行邏輯,構(gòu)造了可視化的3層邏輯網(wǎng)絡(luò)展示:感知網(wǎng)絡(luò)、控制網(wǎng)絡(luò)、執(zhí)行網(wǎng)絡(luò)。
最上層為感知層,與相鄰的控制節(jié)點(diǎn)相連接,并將感知信息傳遞給控制節(jié)點(diǎn);中間層為控制節(jié)點(diǎn),控制節(jié)點(diǎn)與相鄰的控制節(jié)點(diǎn)間存在連接,可以相互傳遞信息,所有控制節(jié)點(diǎn)構(gòu)成了整個(gè)多智能體網(wǎng)絡(luò);控制節(jié)點(diǎn)連接最下層的執(zhí)行節(jié)點(diǎn),控制動(dòng)作執(zhí)行。
首先介紹基于規(guī)則的空天防御體系框圖,根據(jù)2.1節(jié)所述的構(gòu)造規(guī)則,在3類(lèi)節(jié)點(diǎn)之間可以自動(dòng)生成網(wǎng)絡(luò)架構(gòu),如圖4所示,為3類(lèi)節(jié)點(diǎn)的通信網(wǎng)絡(luò)架構(gòu)。
圖4 感知、控制、執(zhí)行三層網(wǎng)絡(luò)模型
從局部來(lái)看,是相鄰的控制節(jié)點(diǎn)控制對(duì)應(yīng)范圍內(nèi)的感知節(jié)點(diǎn)、執(zhí)行節(jié)點(diǎn)執(zhí)行動(dòng)作,而從全局來(lái)看,則是小范圍的控制-感知-執(zhí)行網(wǎng)絡(luò)組合成一個(gè)個(gè)局部網(wǎng)絡(luò),然后通過(guò)控制節(jié)點(diǎn)構(gòu)成的控制網(wǎng)絡(luò),實(shí)現(xiàn)各個(gè)局部網(wǎng)絡(luò)之間的協(xié)作連接。
2.1.2感知-決策-執(zhí)行過(guò)程
首先考慮單條感知-決策-執(zhí)行鏈路,即針對(duì)單個(gè)目標(biāo)的應(yīng)對(duì)過(guò)程,然后考慮多目標(biāo)的感知-決策-執(zhí)行鏈路。感知-決策-執(zhí)行鏈路的設(shè)計(jì)主要考慮對(duì)目標(biāo)的應(yīng)對(duì)策略,以及執(zhí)行過(guò)程需要調(diào)動(dòng)的要素。
在感知-決策-執(zhí)行鏈路的構(gòu)建過(guò)程中,最復(fù)雜的部分是如何選擇合適的執(zhí)行節(jié)點(diǎn)和信息傳播路徑。需要解決以下問(wèn)題:
(1) 如何快速找到合適的執(zhí)行節(jié)點(diǎn)來(lái)適配任務(wù);
(2) 如何避免多個(gè)節(jié)點(diǎn)的重復(fù)工作,造成浪費(fèi)。
首先設(shè)計(jì)算法來(lái)分配任務(wù),對(duì)于任意目標(biāo),會(huì)有相應(yīng)的感知設(shè)備跟蹤到,并將感知信息傳輸給相鄰的控制節(jié)點(diǎn),在正常情況下,會(huì)有數(shù)個(gè)控制節(jié)點(diǎn)收到對(duì)應(yīng)的信息,即如前所述的局部網(wǎng)絡(luò)中,對(duì)應(yīng)的控制節(jié)點(diǎn)具有了目標(biāo)的詳細(xì)信息。此時(shí)控制節(jié)點(diǎn)根據(jù)目標(biāo)信息,確定需要轉(zhuǎn)發(fā)的下一個(gè)控制節(jié)點(diǎn)。
如上所述為信息包的發(fā)起過(guò)程,接下來(lái)討論傳輸策略,當(dāng)控制節(jié)點(diǎn)收到信息包時(shí),需要對(duì)信息進(jìn)行分析,并按照貪心策略轉(zhuǎn)發(fā)信息包,進(jìn)行信息傳遞,直到某一臺(tái)控制節(jié)點(diǎn)可以調(diào)動(dòng)執(zhí)行節(jié)點(diǎn),完成對(duì)應(yīng)任務(wù),并向相鄰的控制節(jié)點(diǎn)廣播自己的執(zhí)行信號(hào),避免重復(fù)執(zhí)行。
上述過(guò)程使用了貪心的協(xié)同策略,在找到第一個(gè)可行的執(zhí)行節(jié)點(diǎn)時(shí)便下達(dá)執(zhí)行命令。一方面能夠有效快速應(yīng)對(duì)目標(biāo);另一方面,通過(guò)全域廣播執(zhí)行信息,可以有效應(yīng)對(duì)重復(fù)執(zhí)行問(wèn)題。
上述操作為單任務(wù)的應(yīng)對(duì)過(guò)程,多任務(wù)使用同樣的應(yīng)對(duì)策略,即為每一個(gè)任務(wù)建立一個(gè)傳遞過(guò)程,形成一個(gè)感知-決策-執(zhí)行環(huán),在圖模型中形成一條鏈路,每一個(gè)目標(biāo)構(gòu)建一條通信鏈路來(lái)進(jìn)行處理。在對(duì)目標(biāo)感知過(guò)程中,對(duì)目標(biāo)進(jìn)行區(qū)分編號(hào),并通過(guò)通信算法,來(lái)按照上述方法構(gòu)建通信鏈路,應(yīng)對(duì)多任務(wù)場(chǎng)景。
2.1.3多智能體系統(tǒng)網(wǎng)絡(luò)構(gòu)建
感知節(jié)點(diǎn)負(fù)責(zé)感知目標(biāo)信息,對(duì)于感知節(jié)點(diǎn),令CNR表示與節(jié)點(diǎn)相連接的控制節(jié)點(diǎn)構(gòu)成的集合,按如下步驟完成對(duì)目標(biāo)的一次任務(wù)執(zhí)行過(guò)程:
步驟1:如果CNR中元素個(gè)數(shù)大于0,轉(zhuǎn)到步驟2,否則本次任務(wù)失??;
如上所述,在感知到目標(biāo)時(shí),通過(guò)遞歸地選取合適的資源,對(duì)任務(wù)進(jìn)行劃分,通過(guò)遞歸地進(jìn)行任務(wù)分配來(lái)形成完整的感知-決策-執(zhí)行鏈。
對(duì)于多目標(biāo)的情況,使用向量(、)對(duì)目標(biāo)=(1,2,…,T)進(jìn)行標(biāo)記,其中=(1,2,…,R)表示感知到的節(jié)點(diǎn),向量=(1,2,…,o)表示目標(biāo)的屬性。根據(jù)上述目標(biāo)的屬性信息,可以標(biāo)記唯一且確定的目標(biāo)。按照上述方法,為每個(gè)目標(biāo)T設(shè)計(jì)一條完整的感知-決策-執(zhí)行鏈L,所有的鏈共同構(gòu)成一個(gè)完整的任務(wù)網(wǎng)絡(luò)。
2.1.4多智能體系統(tǒng)數(shù)學(xué)建模
本節(jié)將多智能體系統(tǒng)的狀態(tài)空間符號(hào)化,在此基礎(chǔ)上建模涌現(xiàn)過(guò)程。對(duì)于單個(gè)智能體,用有限集合{1,2,3,…}來(lái)表示智能體狀態(tài)集合,其中每個(gè)元素代表智能體的一種狀態(tài)。對(duì)于一個(gè)智能體,定義轉(zhuǎn)換函數(shù)來(lái)描述動(dòng)作規(guī)則,將當(dāng)前輸入值和當(dāng)前的狀態(tài)作為轉(zhuǎn)換函數(shù)的參數(shù),即可生成智能體的下一個(gè)狀態(tài)。如果這個(gè)智能體有個(gè)輸入,用個(gè)集合{1,2,…,I}表示可能的輸入值。定義為1,…,I的笛卡爾積表示所有可能的輸入構(gòu)成的集合,即
=1×2×…×I.
例如,如果有集合1={a,b,c}和2={,},則
=1×2={(,),(,),(,),(,),(,),(,)}。
因此,智能體的轉(zhuǎn)換函數(shù)定義為
:×→.
為了描述智能體的行為序列,指定()為時(shí)刻的狀態(tài),I()為時(shí)刻輸入的值,那么智能體的動(dòng)作可由函數(shù)確定:
(+1)=(1(),2(),…,I(),()).
同樣地,給出+1時(shí)刻的輸入{1(+1),2(+1),…,I(+1)},便可用函數(shù)推導(dǎo)出機(jī)制在+2時(shí)刻的狀態(tài)(+2),以此類(lèi)推,可以遞歸地得出機(jī)制在+3、+4等時(shí)刻的狀態(tài),從而生成連續(xù)的狀態(tài)序列。這種迭代過(guò)程有效地建模了系統(tǒng)演化過(guò)程。
接下來(lái)考慮智能體的相互作用與連接關(guān)系,在模型的構(gòu)建過(guò)程中,目標(biāo)是建立一個(gè)框架,以便刻畫(huà)多智能體系統(tǒng)的自主演化,在其中研究涌現(xiàn)現(xiàn)象和涌現(xiàn)的復(fù)雜性。多智能體系統(tǒng)的涌現(xiàn)現(xiàn)象是由受規(guī)則約束的實(shí)體相互作用產(chǎn)生的。使用轉(zhuǎn)換函數(shù)來(lái)給出這些約束規(guī)則的形式化表示,當(dāng)多個(gè)智能體相互作用時(shí),對(duì)應(yīng)的狀態(tài)空間的復(fù)雜性就會(huì)和涌現(xiàn)緊密聯(lián)系在一起。
首先定義一個(gè)智能體的集合來(lái)建模所有可能的智能體類(lèi)型,稱為基本因子,基本因子根據(jù)協(xié)同規(guī)則連接起來(lái)構(gòu)成多智能體系統(tǒng)。當(dāng)一個(gè)智能體的狀態(tài)序列決定了另一個(gè)智能體中某一輸入變量的序列值時(shí),就說(shuō)這兩個(gè)智能體相互連接。通過(guò)選取集合中的智能體進(jìn)行連接,構(gòu)成一個(gè)相互作用的多智能體網(wǎng)絡(luò)。
假設(shè)是由個(gè)智能體組成的集合,這些智能體的動(dòng)作由轉(zhuǎn)換函數(shù)1,2,…,f定義。中的智能體可能有不同的狀態(tài)集、不同的輸入個(gè)數(shù)。在符號(hào)中添加下標(biāo)來(lái)表征智能體的可能輸入
I=I1×I2×…×I(),
其中,()表示智能體的輸入個(gè)數(shù)。經(jīng)過(guò)擴(kuò)展,智能體的轉(zhuǎn)換函數(shù)f表示為
f:I×S→S.
接下來(lái)建模集合中智能體的相互作用。為了使兩個(gè)智能體能夠相互作用,其中一個(gè)智能體的狀態(tài)應(yīng)當(dāng)在一定程度上決定另外一個(gè)智能體的某個(gè)輸入值。這些智能體才能被耦合或者連接起來(lái)。對(duì)F中智能體的不同狀態(tài)集取并集:
=1∪2∪ … ∪S。
定義接口函數(shù)g來(lái)表示智能體中的輸入,對(duì)于一個(gè)和智能體連接的智能體,函數(shù)g將該智能體的狀態(tài)作為初始值,就可為智能體生成輸入的合法值。因此,g使用如下表達(dá)形式:
g:→I.
即在任意時(shí)刻,智能體與智能體的輸入相連接:
I(t)=g(()).
通過(guò)接口函數(shù),根據(jù)智能體在時(shí)刻的狀態(tài)(),可以確定輸入在時(shí)刻的輸入值序列。
使用上述方法連接中的智能體,通過(guò)受限生成過(guò)程可以創(chuàng)建出更復(fù)雜的復(fù)雜網(wǎng)絡(luò),從單個(gè)智能體開(kāi)始,然后再逐步達(dá)到目標(biāo)。
(1) 模型生成過(guò)程可以僅包含單個(gè)智能體∈。
(2) 假設(shè)是已經(jīng)建立的網(wǎng)絡(luò),且中的智能體有一個(gè)自由輸入,將輸入與中的某個(gè)其他智能體連接,即在中建立從到的新連接,就能得到新的網(wǎng)絡(luò)'。
(3) 假設(shè)1和2是已經(jīng)建立的網(wǎng)絡(luò),且1中的智能體有一個(gè)自由輸入,那么將輸入與2中的某一其他智能體連接后,輸入就不再是自由的,這樣一來(lái),就會(huì)得到一個(gè)新的網(wǎng)絡(luò)"。
(4) 通過(guò)以上3步,即可建立所有以為基礎(chǔ)的網(wǎng)絡(luò)。
用() 來(lái)表示網(wǎng)絡(luò)中的智能體總數(shù)(每個(gè)智能體其實(shí)都是中的一個(gè))。根據(jù)集合{1,2,…,()},可以給網(wǎng)絡(luò)中的每個(gè)智能體分配一個(gè)唯一的索引(地址)。用下面的方法創(chuàng)建這種索引。
(1) 若網(wǎng)絡(luò)只包含單個(gè)智能體∈,則的索引就是=1。
(2) 若網(wǎng)絡(luò)'是通過(guò)將中的一個(gè)自由輸入和中的某個(gè)智能體連接在一起形成的,則索引不變。
(3) 若網(wǎng)絡(luò)是通過(guò)將1中的一個(gè)自由輸入與2中的一個(gè)智能體連接在一起形成的,則1中的索引不變,2中的每個(gè)索引都增加(1)以生成一個(gè)新的索引'=+(1),即(')(1)+(2)。
在多智能體網(wǎng)絡(luò)中,如果每個(gè)智能體都有唯一索引,那么就可以用矩陣來(lái)描述網(wǎng)絡(luò)中節(jié)點(diǎn)的連接和鄰接情況。對(duì)于由個(gè)智能體構(gòu)成的網(wǎng)絡(luò),令表示單個(gè)智能體的狀態(tài)數(shù)量,則多智能體系統(tǒng)的狀態(tài)空間大小為q(此處假設(shè)所有智能體狀態(tài)數(shù)相同,不同的情況更加復(fù)雜,但數(shù)量級(jí)相同)。在智能體演化過(guò)程中,多智能體系統(tǒng)將停留在哪種狀態(tài),或者以什么樣的概率分布在整個(gè)狀態(tài)空間上,決定了整個(gè)系統(tǒng)涌現(xiàn)出的性質(zhì)。
圖5 基于規(guī)則的涌現(xiàn)過(guò)程示意圖
網(wǎng)絡(luò)的涌現(xiàn)取決于智能體的狀態(tài)數(shù),連接方法,連接數(shù)量,以及智能體之間的相互作用關(guān)系。如圖5所示,給定智能體的動(dòng)作規(guī)則和協(xié)同規(guī)則,即可確定系統(tǒng)狀態(tài)空間,針對(duì)特定的任務(wù),系統(tǒng)涌現(xiàn)出特定的動(dòng)作序列,基于系統(tǒng)的指標(biāo)評(píng)估,可以搜索最優(yōu)的狀態(tài)配置。在此基礎(chǔ)上,還可以反饋到動(dòng)作規(guī)則和協(xié)同規(guī)則的設(shè)計(jì)。系統(tǒng)的可控涌現(xiàn)關(guān)鍵在于刻畫(huà)單個(gè)智能體性質(zhì)與多智能體涌現(xiàn)之間的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)可控涌現(xiàn)。
接下來(lái)考慮基于強(qiáng)化學(xué)習(xí)的多智能體系統(tǒng)可控涌現(xiàn)。此時(shí)每個(gè)裝備建模為一個(gè)智能體,可以根據(jù)環(huán)境狀態(tài)而自適應(yīng)地執(zhí)行相應(yīng)的動(dòng)作。多智能體系統(tǒng)的可控涌現(xiàn)表現(xiàn)為對(duì)智能體策略的構(gòu)建。本文將智能體的策略模型建模為強(qiáng)化學(xué)習(xí)過(guò)程,每個(gè)智能體可以根據(jù)環(huán)境變化、其他智能體的狀態(tài)變化,通過(guò)強(qiáng)化學(xué)習(xí)策略來(lái)選擇自己的動(dòng)作。同樣地,為系統(tǒng)設(shè)置整體的性能指標(biāo),并以此為基礎(chǔ)構(gòu)建強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù)?;谀繕?biāo)函數(shù)構(gòu)建智能體的強(qiáng)化學(xué)習(xí)策略,通過(guò)強(qiáng)化學(xué)習(xí)來(lái)得出智能體的動(dòng)作序列,實(shí)現(xiàn)多智能體系統(tǒng)的可控涌現(xiàn)。
對(duì)于由個(gè)智能體構(gòu)成的網(wǎng)絡(luò),如圖6所示,在多智能體網(wǎng)絡(luò)運(yùn)行過(guò)程中,任意智能體可以觀測(cè)相鄰智能體的狀態(tài)和環(huán)境狀態(tài),以及通過(guò)通信得到的部分其他智能體的狀態(tài),獲得觀測(cè)o,并遵從一定的執(zhí)行策略,執(zhí)行動(dòng)作a,并獲得對(duì)應(yīng)的獎(jiǎng)勵(lì)r。在智能體演化過(guò)程中,智能復(fù)雜網(wǎng)絡(luò)將停留在哪種狀態(tài),或者以什么樣的概率分布在整個(gè)狀態(tài)空間上,決定了整個(gè)復(fù)雜網(wǎng)絡(luò)呈現(xiàn)出的性質(zhì)。而網(wǎng)絡(luò)的穩(wěn)定態(tài)則取決于智能體的策略,交互方法,連接數(shù)量等。基于強(qiáng)化學(xué)習(xí)來(lái)構(gòu)建智能體的執(zhí)行策略,實(shí)現(xiàn)網(wǎng)絡(luò)的涌現(xiàn)性質(zhì)。
此外,智能復(fù)雜系統(tǒng)由于單個(gè)個(gè)體存在智能策略,可能需要長(zhǎng)時(shí)間的博弈過(guò)程才能形成穩(wěn)態(tài),在構(gòu)建過(guò)程中需要考慮智能策略的反應(yīng)時(shí)間(即能在多長(zhǎng)時(shí)間能產(chǎn)生決策),整體系統(tǒng)博弈的平衡狀態(tài),博弈平衡需要的時(shí)間(多長(zhǎng)時(shí)間能夠演化到平衡態(tài)),整體性能指標(biāo)(同簡(jiǎn)單規(guī)則的情況相同,使用圖模型的量化指標(biāo)來(lái)表征)。
圖6 多智能體與同一環(huán)境交互示意圖
馬爾可夫決策模型(Markov decision process)為解決多智能協(xié)同涌現(xiàn)問(wèn)題提供了技術(shù)基礎(chǔ),如多智能體馬爾可夫決策模型(M-MDPs),去中心化的馬爾可夫決策模型(DEC-MDPs)。由于實(shí)際環(huán)境通常是部分可觀測(cè)的,所以在多智能體決策過(guò)程中一般使用去中心化的部分可觀測(cè)馬爾可夫決策模型(DEC-POMDPs),其目標(biāo)是使獨(dú)立智能體在協(xié)作完成一項(xiàng)共同任務(wù)時(shí)最大化整個(gè)系統(tǒng)的報(bào)酬。本文使用基于馬爾可夫決策模型的多智能體深度強(qiáng)化學(xué)習(xí)方法,構(gòu)建空天防御體系的分布式?jīng)Q策模型,其可以直接輸入高維狀態(tài)信息,獲取分布式實(shí)時(shí)決策,在應(yīng)對(duì)大規(guī)模來(lái)襲目標(biāo),實(shí)時(shí)動(dòng)態(tài)防御決策過(guò)程中有出色的表現(xiàn),是解決復(fù)雜系統(tǒng)可控涌現(xiàn)的有效方法。
無(wú)中心式的多智能體系統(tǒng)作為典型的分布式協(xié)同系統(tǒng),其中每個(gè)智能體都要在有限時(shí)間內(nèi),在信息部分可觀測(cè)約束條件下進(jìn)行最優(yōu)決策行為選擇。根據(jù)是否完全可觀測(cè),可以分2種情況設(shè)計(jì)模型:
(1) 完全可觀測(cè)的多智能體馬爾可夫決策模型
對(duì)于MMDPs模型中每一個(gè)智能體而言,其行為決策是相對(duì)獨(dú)立的,因此求解一個(gè)MMDPs問(wèn)題等價(jià)于個(gè)MDP的聯(lián)合求解。在經(jīng)典的單智能體MDP中,求解MDP就是選擇一條合適的策略最大化智能體的決策回報(bào)。然而,求解一個(gè)MMDPs問(wèn)題需要尋找一個(gè)最大效用值的聯(lián)合策略,多智能體系統(tǒng)面臨狀態(tài)空間復(fù)雜的問(wèn)題,具有典型非線性性質(zhì),使用簡(jiǎn)單策略難以實(shí)現(xiàn)對(duì)系統(tǒng)的可控涌現(xiàn)。
(2) 部分可觀測(cè)的多智能體馬爾可夫決策模型
在現(xiàn)實(shí)世界,單個(gè)智能體往往只能觀測(cè)到部分環(huán)境和鄰接智能體的狀態(tài),因此,一般使用部分可觀測(cè)馬爾可夫決策過(guò)程(partial observable MDP,POMDP)進(jìn)行建模,相比于完全可觀測(cè)的情況,部分觀測(cè)難以估測(cè)環(huán)境的實(shí)際狀態(tài),策略執(zhí)行受限,系統(tǒng)的可控涌現(xiàn)更加困難。在多智能體問(wèn)題中,如果每個(gè)智能體觀測(cè)到環(huán)境的局部信息,并且根據(jù)局部信息進(jìn)行決策,這類(lèi)問(wèn)題稱為去中心化POMDP問(wèn)題(decentralized POMDP,Dec-POMDP)。圖7展示了Dec-POMDP隨時(shí)間演進(jìn)的過(guò)程。
圖7 去中心化的部分可觀測(cè)馬爾可夫過(guò)程
在多智能體系統(tǒng)中有多個(gè)智能體進(jìn)行決策,且智能體之間相互影響,共同改變環(huán)境的狀態(tài),系統(tǒng)的可控涌現(xiàn)需要更高的時(shí)間復(fù)雜度,主要表現(xiàn)為:
(1) 智能體之間有競(jìng)爭(zhēng)關(guān)系、合作關(guān)系等,要考慮環(huán)境、己方、敵方、中立方的行動(dòng)、意圖及狀態(tài);
(2) 在強(qiáng)化學(xué)習(xí)中,需要存儲(chǔ)狀態(tài)值函數(shù)或動(dòng)作-狀態(tài)值函數(shù),以及智能體間的神經(jīng)元網(wǎng)絡(luò)聯(lián)結(jié)模式,因此狀態(tài)空間變大,聯(lián)結(jié)動(dòng)作空間隨智能體數(shù)量指數(shù)增長(zhǎng),系統(tǒng)維度高,計(jì)算復(fù)雜。
(3) 多智能體系統(tǒng)中每個(gè)智能體的任務(wù)不同,但彼此之間又相互耦合影響,因此目標(biāo)獎(jiǎng)勵(lì)的確定困難。
針對(duì)上述問(wèn)題,可以將多智能體系統(tǒng)的可控涌現(xiàn)問(wèn)題建模為一個(gè)多約束、多目標(biāo)的優(yōu)化問(wèn)題,并采用群智優(yōu)化方法求解該優(yōu)化問(wèn)題。每個(gè)智能體獨(dú)立做出動(dòng)作選擇,并行地在多智能體系統(tǒng)的狀態(tài)空間中進(jìn)行大樣本探索,通過(guò)構(gòu)建搜索策略和評(píng)估指標(biāo),不斷探索在適應(yīng)度函數(shù)(優(yōu)化目標(biāo))上優(yōu)勢(shì)的動(dòng)作策略。每個(gè)智能體的動(dòng)作序列可以建模為馬爾可夫決策過(guò)程。
與傳統(tǒng)優(yōu)化算法相比,基于仿生學(xué)的群體智能優(yōu)化算法本質(zhì)上是一種概率并行搜索算法。其尋優(yōu)速度更快,能更有效地搜索復(fù)雜優(yōu)化問(wèn)題的全局最優(yōu)解。全局收斂性好,在包括尋找函數(shù)最優(yōu)值、求解旅行商問(wèn)題、目標(biāo)分配問(wèn)題、多處理機(jī)調(diào)度問(wèn)題、有依賴的優(yōu)化問(wèn)題和作業(yè)調(diào)度問(wèn)題等領(lǐng)域得到廣泛的應(yīng)用。
群智優(yōu)化過(guò)程可以使用遺傳算法。該方法是一種基于自然選擇過(guò)程機(jī)制的搜索優(yōu)化算法,通過(guò)模仿“適者生存”的概念,模擬了一個(gè)自然系統(tǒng)中觀察到的運(yùn)行過(guò)程,強(qiáng)者傾向于適應(yīng)和生存,而弱者傾向于死亡。其中群體中的成員根據(jù)其解決方案的適合度進(jìn)行排名。在遺傳算法中,通過(guò)交叉、繁殖和突變等特定的遺傳算子形成新的種群。在每一代中,一個(gè)新的智能體是利用來(lái)自前一個(gè)群體的最適策略的信息產(chǎn)生的。遺傳算法生成可行解的初始種群,并以各種方式進(jìn)行重新組合,搜索到狀態(tài)空間中更優(yōu)的區(qū)域。每一個(gè)可行的解決方案都被編碼為染色體,也被稱為基因型,每一條染色體都將通過(guò)適應(yīng)度函數(shù)(評(píng)估或目標(biāo)函數(shù))求得一個(gè)適應(yīng)度度量。該算法由3個(gè)主要過(guò)程組成,即繁殖、交叉和突變。繁殖選擇種群中最適的候選者,而交叉則是將最適的染色體結(jié)合并傳遞優(yōu)良基因給下一代的過(guò)程,突變則改變?nèi)旧w中的一些基因。結(jié)合適應(yīng)度評(píng)估即可對(duì)復(fù)雜優(yōu)化問(wèn)題求解。
在單智能體系統(tǒng)中,智能體只需要考慮環(huán)境的變化,而在多智能體強(qiáng)化學(xué)習(xí)中,還需要考慮多個(gè)智能體的交互和相互影響,動(dòng)態(tài)過(guò)程更加復(fù)雜,智能體的最優(yōu)策略可能隨著其他智能體策略的變化而變化,這給算法的收斂性帶來(lái)極大地影響,學(xué)習(xí)速度減慢。
多智能體系統(tǒng)的可控涌現(xiàn)目前還存在諸多難點(diǎn),對(duì)于協(xié)同關(guān)系的設(shè)定,競(jìng)爭(zhēng)規(guī)則的改變將導(dǎo)致宏觀上的涌現(xiàn)性質(zhì),而指數(shù)大小的狀態(tài)空間導(dǎo)致了可控涌現(xiàn)在實(shí)現(xiàn)上的困難。在對(duì)狀態(tài)空間的搜索尋優(yōu)過(guò)程中,多智能體系統(tǒng)面臨非平穩(wěn)環(huán)境、維度爆炸、多智能體信用分配、系統(tǒng)全局探索等問(wèn)題的挑戰(zhàn)。
針對(duì)多智能體系統(tǒng)的涌現(xiàn)性質(zhì),本文給出了基于復(fù)雜網(wǎng)絡(luò)的多智能體系統(tǒng)建模;在此基礎(chǔ)上,基于復(fù)雜系統(tǒng)理論來(lái)分析系統(tǒng)的涌現(xiàn)性能;應(yīng)用強(qiáng)化學(xué)習(xí)方法來(lái)搜索尋找最優(yōu)的動(dòng)作規(guī)則和協(xié)同規(guī)則,構(gòu)建匹配相應(yīng)任務(wù)的多智能體系統(tǒng)。
多智能體系統(tǒng)涌現(xiàn)性質(zhì)研究的難點(diǎn)在于系統(tǒng)的復(fù)雜性,系統(tǒng)的狀態(tài)空間隨著裝備數(shù)量增加而指數(shù)增大,對(duì)系統(tǒng)的模擬計(jì)算與性質(zhì)分析均十分復(fù)雜。此外,在環(huán)境發(fā)生變化或者系統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)生改變后,多智能體系統(tǒng)的演化過(guò)程可能需要很長(zhǎng)時(shí)間,難以快速達(dá)到平衡穩(wěn)態(tài),涌現(xiàn)出期望的性質(zhì)。因此,需要對(duì)系統(tǒng)的收斂速率進(jìn)行分析,而這個(gè)分析同樣受制于系統(tǒng)的復(fù)雜性,十分困難。
針對(duì)上述問(wèn)題,一種解決方案是通過(guò)指數(shù)圖模型來(lái)建模狀態(tài)空間,通過(guò)分析狀態(tài)空間的連通性來(lái)度量收斂速度,在此基礎(chǔ)上,設(shè)計(jì)動(dòng)作規(guī)則和協(xié)同規(guī)則來(lái)獲取高連通的體系架構(gòu),提升體系的快速收斂能力,保障體系的快速涌現(xiàn)。此外,本文給出了基于規(guī)則的協(xié)同方法、基于群智優(yōu)化的協(xié)同方法的設(shè)計(jì)與驗(yàn)證。在下一步研究中,通過(guò)進(jìn)一步優(yōu)化動(dòng)作規(guī)則、協(xié)同規(guī)則,以及智能體的執(zhí)行策略,可以增強(qiáng)系統(tǒng)的涌現(xiàn)效率,實(shí)現(xiàn)更好的涌現(xiàn)效果。
[1] LEIT?O P, KARNOUSKOS S. Industrial Agents: Emerging Applications of Software Agents in Industry[M]. Amsterdam, Netherlands: Elsevier, 2015.
[2] KUBERA Y, MATHIEU P, PICAULT S. Everything Can Be Agent?。跜]∥Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems. Richland, SC: International Foundation for Autonomous Agents and Multiagent Systems, 2010: 1547-1548.
[3] CUCKER F, SMALE S. On the Mathematics of Emergence[J]. Japanese Journal of Mathematics, 2007, 2(1): 197-227.
[4] 王涵, 俞揚(yáng), 姜遠(yuǎn). 基于通信的多智能體強(qiáng)化學(xué)習(xí)進(jìn)展綜述[J]. 中國(guó)科學(xué)(信息科學(xué)), 2022, 52(5): 742-764.
WANG Han, YU Yang, JIANG Yuan. Review of the Progress of Communication-Based Multi-agent Reinforcement Learning[J]. Scientia Sinica(Informationis), 2022, 52(5): 742-764.
[5] NIAZI M, HUSSAIN A. Agent-Based Computing from Multi-agent Systems to Agent-Based Models: A Visual Survey[J]. Scientometrics, 2011, 89(2): 479-499.
[6] PANAIT L, LUKE S. Cooperative Multi-agent Learning: The State of the Art[J]. Autonomous Agents and Multi-agent Systems, 2005, 11(3): 387-434.
[7] ANDERSON P W. More is Different[J]. Science, 1972, 177(4047): 393-396.
[8] BOGU?á M, BONAMASSA I, DE DOMENICO M, et al. Network Geometry[J]. Nature Reviews Physics, 2021, 3(2): 114-135.
[9] WOOLDRIDGE M. An Introduction to Multi Agent Systems[M].John Wiley & Sons, 2002: 366.
[10] ROGERS A, DAVID E, JENNINGS N R, et al. The Effects of Proxy Bidding and Minimum Bid Increments Within eBay Auctions[J]. ACM Transactions on the Web, 2007, 1(2): 9-es.
[11] 鄭健, 陳建, 朱琨. 基于多智能體強(qiáng)化學(xué)習(xí)的無(wú)人集群協(xié)同設(shè)計(jì)[J]. 指揮信息系統(tǒng)與技術(shù), 2020, 11(6): 26-31.
ZHENG Jian, CHEN Jian, ZHU Kun. Unmanned Swarm Cooperative Design Based on Multi-agent Reinforcement Learning[J]. Command Information System and Technology, 2020, 11(6): 26-31.
[12] 柏曉祉. 強(qiáng)化學(xué)習(xí)在多智能體協(xié)同中的研究與應(yīng)用[D]. 成都: 電子科技大學(xué), 2020.
BAI Xiaozhi. Research and Application of Reinforcement Learning in Multi-agent Collaboration[D]. Chengdu: University of Electronic Science and Technology of China, 2020.
[13] 孫清. 基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)同機(jī)制研究[D]. 杭州: 浙江工業(yè)大學(xué), 2015.
SUN Qing. Research of Multi-agent Cooperation Mechanism Based on Reinforcement Learning[D]. Hangzhou: Zhejiang University of Technology, 2015.
[14] 陳亮, 梁宸, 張景異, 等. Actor-Critic框架下一種基于改進(jìn)DDPG的多智能體強(qiáng)化學(xué)習(xí)算法[J]. 控制與決策, 2021, 36(1): 75-82.
CHEN Liang, LIANG Chen, ZHANG Jingyi, et al. A Multi-agent Reinforcement Learning Algorithm Based on Improved DDPG in Actor-Critic Framework[J]. Control and Decision, 2021, 36(1): 75-82.
[15] 曹雷. 基于深度強(qiáng)化學(xué)習(xí)的智能博弈對(duì)抗關(guān)鍵技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù), 2019, 10(5): 1-7.
CAO Lei. Key Technologies of Intelligent Game Confrontation Based on Deep Reinforcement Learning[J]. Command Information System and Technology, 2019, 10(5): 1-7.
[16] 葛志欣. 基于深度強(qiáng)化學(xué)習(xí)的多智能體協(xié)同決策研究[D]. 大連: 大連理工大學(xué), 2021.
GE Zhixin. Research on Collaborative Decision of Multi-agent Based on Deep Reinforcement Learning[D]. Dalian: Dalian University of Technology, 2021.
Research on Multi-task Controllable Emergence Mechanism for Air and Space Defense System
BAIZonglei1,2,LIUXiuhua1,2,BAITianxiang1,2,SUNKewu1,2
(1.Intelligent Science & Technology Academy of CASIC,Beijing 100043,China;2.Key Lab of Aerospace Defense Intelligent System and Technology, Beijing 100043, China)
The research on the emergence of swarm intelligence plays an important role in people's understanding of the laws of nature, optimizing social management, and promoting knowledge innovation. The air and space defense system provides a new scene for the research and application of swarm intelligence. However, the aerospace defense system is a typical nonlinear system, and the controllable emergence of the system faces problems such as exponential explosion of state space, complex dynamic process model, and difficult performance analysis. Aiming at the battlefield defense scenario, this paper carries out the research on the controllable emergence mechanism of intelligent defense system for large-scale target response, complex task scenario adaptation, multi-task coordination and cooperation, and complex system design faced by the air and space defense system, explores the emergence mechanism of the air and space defense system, and provides a new perspective for improving the multi-target response capability, rapid scenario adaptation ability and effective coordination and cooperation among the elements of the air and space defense system.
emergence of swarm intelligence;air and space defense system;controllable emergence;complex system;multi-agent reinforcement learning
2023 -02 -24 ;
2023 -04 -18
國(guó)家自然科學(xué)基金(62103386);青年人才托舉工程(2022QNRC001)
白宗磊(1993-),男,山東淄博人。工程師,博士,研究方向?yàn)閺?fù)雜系統(tǒng),多智能體系統(tǒng)。
通信地址:100043 北京市石景山區(qū)群明湖大街6號(hào)院 E-mail:zongleibai@163.com
10.3969/j.issn.1009-086x.2023.03.005
V19;TJ76
A
1009-086X(2023)-03-0039-10
白宗磊, 劉秀華, 白天翔, 等.面向空天防御體系的多任務(wù)可控涌現(xiàn)機(jī)制研究[J].現(xiàn)代防御技術(shù),2023,51(3):39-48.
Reference format:BAI Zonglei,LIU Xiuhua,BAI Tianxiang,et al.Research on Multi-task Controllable Emergence Mechanism for Air and Space Defense System[J].Modern Defence Technology,2023,51(3):39-48.