白樺,孫旭朋,黃文錚
(北京圣濤平試驗(yàn)工程技術(shù)研究院有限責(zé)任公司,北京 100089)
在解決游戲和軍事等強(qiáng)對(duì)抗問題中,人工智能方法被寄予厚望[1]。人們迫切希望尋找一種建模方法能夠擊敗人類,相關(guān)的增強(qiáng)學(xué)習(xí)等強(qiáng)對(duì)抗建模技術(shù)得到關(guān)注。2016年AlphaGo圍棋人工智能的突破, 反映出最近興起的深度學(xué)習(xí)等人工智能技術(shù)解決圍棋這類完美信息博弈問題的優(yōu)異性能。圍棋屬于完全信息博弈問題,與軍事對(duì)抗相比有較大差距,近年來AI接連在多個(gè)對(duì)抗性即時(shí)戰(zhàn)略游戲中達(dá)到甚至戰(zhàn)勝人類最高水平選手。OpenAI訓(xùn)練的5個(gè)AI組成的戰(zhàn)隊(duì),通過在線戰(zhàn)斗游戲Dota2的訓(xùn)練達(dá)到了人類無法比擬的指法操作熟練程度。DeepMind訓(xùn)練的星際爭(zhēng)霸人工智能系統(tǒng)擊敗世界上最強(qiáng)大的職業(yè)星際爭(zhēng)霸玩家。
美軍2014 年提出的“第三次抵消戰(zhàn)略”,就是以人工智能技術(shù)為核心發(fā)展能夠 “改變未來戰(zhàn)局” 的顛覆性技術(shù)群,來形成相較于對(duì)手的絕對(duì)軍事優(yōu)勢(shì)。未來戰(zhàn)爭(zhēng)是由物理域、信息域、控制域等多重域交疊構(gòu)成的具有跨域特性的作戰(zhàn)域。隨著人工智能技術(shù)的發(fā)展,應(yīng)用于未來作戰(zhàn)的強(qiáng)對(duì)抗系統(tǒng)將是高度復(fù)雜的大系統(tǒng),具有可變的戰(zhàn)場(chǎng)環(huán)境、不確定的動(dòng)態(tài)因素干擾、多目標(biāo)的作戰(zhàn)任務(wù)??紤]真實(shí)物理世界,裝備在作戰(zhàn)時(shí)面臨可靠性、維修性和保障性(簡(jiǎn)稱 RMS)等問題將有可能限制人工智能控制的性能。
當(dāng)環(huán)境信息輸入增大,指控的智能體(Agent)數(shù)量增多時(shí),強(qiáng)對(duì)抗智能神經(jīng)網(wǎng)絡(luò)的參數(shù)增加結(jié)構(gòu)變得復(fù)雜,此時(shí)網(wǎng)絡(luò)訓(xùn)練存在難以收斂的問題。
GAN是由 Ian J.Goodfellow[2]等在2014年提出的一種基于深度神經(jīng)網(wǎng)絡(luò)的生成式模型。GAN以其學(xué)習(xí)高維、復(fù)雜的真實(shí)數(shù)據(jù)分布的潛力而受到機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注。具體地說,它們不依賴于任何關(guān)于分布的假設(shè),并且可以一種簡(jiǎn)單的方式從隱藏空間生成類似真實(shí)的樣本。它們?cè)趶?fù)雜和高維數(shù)據(jù)的處理能力可用于處理復(fù)雜智能控制領(lǐng)域,并在強(qiáng)對(duì)抗建模領(lǐng)域與增強(qiáng)學(xué)習(xí)中的DQN[3,4]等方法相結(jié)合。GAN方法加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化速度示意圖如圖1。
本文介紹強(qiáng)對(duì)抗控制模型GAN建模的方法,并針對(duì)仿真實(shí)例,采集對(duì)抗回放數(shù)據(jù),分別設(shè)計(jì)鑒別器網(wǎng)絡(luò)和表演者網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在對(duì)訓(xùn)練好的表演者網(wǎng)絡(luò)按照DQN方法進(jìn)一步的訓(xùn)練優(yōu)化,得到優(yōu)化后的網(wǎng)絡(luò)后進(jìn)行可靠性分析,建立RMS參數(shù)與強(qiáng)對(duì)抗控制模型勝率的定量關(guān)系。在此基礎(chǔ)上,分析了物理世界可靠性問題對(duì)控制網(wǎng)絡(luò)性能的影響,并且提出了針對(duì)RMS參數(shù)的性能。
為了快速建立基于深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)對(duì)抗控制模型,采用GAN技術(shù),利用收集到的強(qiáng)對(duì)抗歷史數(shù)據(jù),對(duì)表演者神經(jīng)網(wǎng)絡(luò)進(jìn)行快速優(yōu)化使其能夠模仿這些歷史回放數(shù)據(jù)中采用的對(duì)抗策略,能夠生產(chǎn)歷史回放數(shù)據(jù)的策略。所需歷史回放數(shù)據(jù)可以人類玩家對(duì)局產(chǎn)生,或由編寫的已優(yōu)化的自動(dòng)化對(duì)抗規(guī)則程序產(chǎn)生,無需額外的人工標(biāo)記處理。
圖1 GAN加速神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度
GAN由判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A組成。其中判別網(wǎng)絡(luò)D對(duì)輸入對(duì)抗數(shù)據(jù)進(jìn)行分類,輸出0~1之間的標(biāo)量值判定輸入數(shù)據(jù)是否符合演示對(duì)抗策略,0為完全符合,1為完全不符合,因此判別網(wǎng)絡(luò)D的優(yōu)化目標(biāo)是盡可能對(duì)所有數(shù)據(jù)進(jìn)行準(zhǔn)確判別。表演者網(wǎng)絡(luò)A讀取對(duì)抗態(tài)勢(shì)(環(huán)境)數(shù)據(jù),產(chǎn)生在這種態(tài)勢(shì)下應(yīng)采取的對(duì)抗命令,表演者網(wǎng)絡(luò)A的目標(biāo)是盡可能準(zhǔn)確地模仿演示對(duì)抗策略。判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A形成對(duì)抗關(guān)系,對(duì)這兩個(gè)網(wǎng)絡(luò)的交替訓(xùn)練,當(dāng)這兩個(gè)網(wǎng)絡(luò)達(dá)到平衡時(shí),判別網(wǎng)絡(luò)D以接近同等概率對(duì)演示對(duì)抗數(shù)據(jù)和表演者網(wǎng)絡(luò)產(chǎn)生的對(duì)抗數(shù)據(jù)進(jìn)行判別,此時(shí)表演者網(wǎng)絡(luò)A學(xué)到了接近于演示玩家的對(duì)抗策略。
采集到回放數(shù)據(jù)以后即可采用生成對(duì)抗網(wǎng)絡(luò)技術(shù)對(duì)判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A進(jìn)行對(duì)輪交替訓(xùn)練,其中判別網(wǎng)絡(luò)D的損失為演示樣本與模仿樣本的判別損失總和:
交叉熵BCELoss計(jì)算公式如下:
因此,判別網(wǎng)絡(luò)D損失計(jì)算函數(shù)為:
式中:
判別網(wǎng)絡(luò)D的優(yōu)化目標(biāo)是最小化總體判別損失。判別網(wǎng)絡(luò)D是典型的二元分類神經(jīng)網(wǎng)絡(luò),輸入為聯(lián)合對(duì)抗態(tài)勢(shì)+對(duì)抗命令列表的張量編碼,輸出為0~1二元分類標(biāo)量,其網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)規(guī)??梢钥紤]輸入數(shù)據(jù)特點(diǎn)進(jìn)行選擇,通常可以采用例如卷積網(wǎng)絡(luò)CNN或多層感知機(jī)MLP等,參數(shù)維度和網(wǎng)絡(luò)深度可以根據(jù)輸入數(shù)據(jù)屬性的數(shù)目和關(guān)聯(lián)關(guān)系復(fù)雜性進(jìn)行調(diào)整選擇。
表演者網(wǎng)絡(luò)A的結(jié)構(gòu)設(shè)計(jì)與強(qiáng)化學(xué)習(xí)中表演者網(wǎng)絡(luò)設(shè)計(jì)類似,輸入輸出維度以及網(wǎng)絡(luò)深度等參數(shù)需要考慮仿真數(shù)據(jù)特點(diǎn)進(jìn)行選擇調(diào)整。表演者網(wǎng)絡(luò)A的回報(bào)計(jì)算見公式(5):
表演者網(wǎng)絡(luò)A的優(yōu)化目標(biāo)是最大化回報(bào)。表演者網(wǎng)絡(luò)A的損失函數(shù)見公式(6),式中不同種類的Agent以下標(biāo)i表示,同一種類的Agent不同的架次以下標(biāo)j表示。
式中:
pd—由表演者網(wǎng)絡(luò)A輸出的參數(shù)構(gòu)造的對(duì)抗命令參數(shù)概率分布,pd采用的概率分布類型可以根據(jù)參數(shù)特點(diǎn)進(jìn)行選擇,對(duì)離散參數(shù)例如命令類型可以采用Categorical分布等,對(duì)連續(xù)參數(shù)例如坐標(biāo)點(diǎn)x,y可以采用Normal分布等;
action—從構(gòu)造的概率分布取樣獲得的命令參數(shù)取值;
log_prob—概率分布在action取值的樣本點(diǎn)的log概率密度;
entropy—概率分布的熵;
β—超參數(shù),控制最大熵目標(biāo)在表演者網(wǎng)絡(luò)損失中的占比,在訓(xùn)練時(shí)根據(jù)訓(xùn)練狀況進(jìn)行調(diào)整。
本文以中央軍委裝備發(fā)展部主辦的2020全國(guó)“謀略方寸,聯(lián)合智勝”聯(lián)合作戰(zhàn)智能博弈挑戰(zhàn)賽[5]提供的仿真環(huán)境為應(yīng)用場(chǎng)景,在此基礎(chǔ)上,采用GAN方法建立了強(qiáng)對(duì)抗DQN模型。面對(duì)新的仿真環(huán)境缺少歷史回放數(shù)據(jù)的問題,采用規(guī)則編程驅(qū)動(dòng)紅藍(lán)雙方對(duì)抗,并且記錄對(duì)抗結(jié)果。
紅藍(lán)雙方對(duì)抗的空間范圍設(shè)為350 km*350 km。雙方對(duì)抗地圖如圖2所示。藍(lán)方目標(biāo)(防守方):依托地面、海面和空中立體防空火力,守衛(wèi)己方島嶼2個(gè)指揮所重點(diǎn)目標(biāo)。紅方目標(biāo)(進(jìn)攻方):綜合運(yùn)用??胀粨艉椭гU狭α?,突破藍(lán)方防空體系,摧毀藍(lán)方2個(gè)指揮所重點(diǎn)目標(biāo)。雙方對(duì)抗仿真時(shí)間為2.5 h。
在戰(zhàn)場(chǎng)可見性中采用戰(zhàn)爭(zhēng)迷霧設(shè)置,紅藍(lán)雙方在各自Agent的探測(cè)范圍內(nèi)可見。雙方的攻擊手段為發(fā)射導(dǎo)彈,其中的戰(zhàn)斗機(jī)發(fā)射空空導(dǎo)彈,轟炸機(jī)發(fā)射空地導(dǎo)彈、驅(qū)逐艦發(fā)射艦空導(dǎo)彈、地導(dǎo)營(yíng)發(fā)射地空導(dǎo)彈。紅藍(lán)雙方對(duì)抗兵力見表1。
各裝備底層控制律由仿真引擎操作,仿真環(huán)境接口僅提供高級(jí)命令語法包括命令種類和命令參數(shù)。例如戰(zhàn)斗機(jī)的攻擊指令,包括攻擊戰(zhàn)斗機(jī)的ID和被攻擊空中目標(biāo)的ID;轟炸機(jī)的定點(diǎn)攻擊指令包括攻擊轟炸機(jī)的ID、被攻擊地面目標(biāo)的ID、攻擊角度的攻擊距離。各Agent的控制律、攻擊毀傷概率等為黑盒。
圖2 紅藍(lán)雙方對(duì)抗地圖[5]
仿真環(huán)境提供Python語言開發(fā)的對(duì)戰(zhàn)流程控制,參與者負(fù)責(zé)開發(fā)的程序?yàn)閳D中“決策并下發(fā)指令”,而作為制定決策的輸入為“獲取態(tài)勢(shì)”。獲取的態(tài)勢(shì)主要包括三個(gè)方面的信息,一為己方信息,包括各Agent的種類、空間位置和速度信息、載彈量和燃油量信息、毀傷狀態(tài)信息等;二為對(duì)方信息,僅提供戰(zhàn)爭(zhēng)迷霧可視范圍內(nèi)的敵方Agent種類、空間位置和速度等信息;三為導(dǎo)彈信息,包括雙方發(fā)射導(dǎo)彈的種類、發(fā)射裝備、攻擊目標(biāo)、速度等信息。
為簡(jiǎn)單起見,主要介紹紅方模型的構(gòu)建,編程語言框架為Pytorch。首先構(gòu)建判別器D神經(jīng)網(wǎng)絡(luò)模型,判別器D采用深度卷積網(wǎng)絡(luò)加深度多層感知網(wǎng)絡(luò),輸入量為聯(lián)合態(tài)勢(shì)與聯(lián)合動(dòng)作拼接成的向量,輸出為0~1之間的標(biāo)量,表示Agent行為符合演示對(duì)戰(zhàn)策略的概率。聯(lián)合態(tài)勢(shì)由己方態(tài)勢(shì)、敵方態(tài)勢(shì)以及導(dǎo)彈態(tài)勢(shì)構(gòu)成。單個(gè)對(duì)抗步驟的所有輸入數(shù)據(jù)拼接成一個(gè)1階向量,其維度為:
表1 紅藍(lán)雙方對(duì)抗兵力[5]
式中:
對(duì)輸入數(shù)據(jù)的預(yù)處理主要包括:
1)為了確保神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)不發(fā)生崩潰,對(duì)于所有的網(wǎng)絡(luò)輸入數(shù)據(jù)均進(jìn)行歸一化處理,并且對(duì)于取值為0的數(shù)據(jù)填充為ε小量。
2)每個(gè)對(duì)抗步驟輸入對(duì)己方和敵方Agent均按最大Agent數(shù)目進(jìn)行編碼,對(duì)所有在機(jī)場(chǎng)待命以及補(bǔ)給狀態(tài)的飛機(jī)按照其位于機(jī)場(chǎng)位置待命的狀態(tài)作為相應(yīng)類型的存活A(yù)gent進(jìn)行編碼。
3)空中導(dǎo)彈信息均附加到被攻擊的目標(biāo)Agent之后。
4)對(duì)動(dòng)作命令,按照每個(gè)對(duì)抗步驟己方每個(gè)Agent一個(gè)動(dòng)作指令進(jìn)行編碼,Agent的動(dòng)作命令編碼按照己方Agent順序進(jìn)行排列。對(duì)于在當(dāng)前對(duì)抗步驟實(shí)際未發(fā)出指令的Agent,采用之前發(fā)出的最后一條還在執(zhí)行過程中的指令進(jìn)行填充。
判別器網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。網(wǎng)絡(luò)損失函數(shù)的設(shè)置參照公式(4),優(yōu)化方法為Adam。
圖3 判別器網(wǎng)絡(luò)結(jié)構(gòu)
圖4 表演者網(wǎng)絡(luò)結(jié)構(gòu)
表演者網(wǎng)絡(luò)A同樣采用類似的深度卷積網(wǎng)絡(luò)加深度多層感知網(wǎng)絡(luò),網(wǎng)絡(luò)輸入為聯(lián)合態(tài)勢(shì),網(wǎng)絡(luò)輸出為動(dòng)作命令,表演者網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)輸出根據(jù)動(dòng)作命令類型進(jìn)行隨機(jī)采樣,其中分立指令參數(shù)如攻擊ID號(hào)等的采樣器為Categorical,連續(xù)指令參數(shù)如攻擊距離等的采樣器為Normal。表演者網(wǎng)絡(luò)的損失函數(shù)如表達(dá)式(6)所示,優(yōu)化方法為Adam。
為進(jìn)行GAN訓(xùn)練,需要輸入演示者數(shù)據(jù)。在仿真平臺(tái)未提供相關(guān)對(duì)抗的歷史數(shù)據(jù)的情況下,通過編寫紅藍(lán)雙方的規(guī)則對(duì)抗模型,并進(jìn)行多局對(duì)抗的方式來記錄數(shù)據(jù),記錄的數(shù)據(jù)即包括紅方聯(lián)合態(tài)勢(shì)數(shù)據(jù)也包括紅方動(dòng)作命令數(shù)據(jù)。編寫的規(guī)則模型紅方勝率為0.53。考慮到規(guī)則模型中通常一個(gè)動(dòng)作命令會(huì)控制Agent多步驟的行為直到Agent接受另一個(gè)動(dòng)作命令,對(duì)命令轉(zhuǎn)換前的空白動(dòng)作命令進(jìn)行了填充。采集多輪次的演示者數(shù)據(jù)存入回放數(shù)據(jù)文件供GAN模型訓(xùn)練。
表演者網(wǎng)絡(luò)模型訓(xùn)練的時(shí)候,按照批樣本數(shù)量為200從回放數(shù)據(jù)文件中進(jìn)行隨機(jī)取樣。根據(jù)采樣得到的聯(lián)合態(tài)勢(shì)數(shù)據(jù),運(yùn)行表演者網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)輸出進(jìn)行隨機(jī)采樣后,生成表演者動(dòng)作列表,將該動(dòng)作列表與輸入的聯(lián)合態(tài)勢(shì)進(jìn)行組合,生成模仿樣本數(shù)據(jù),同時(shí)記錄抽樣概率 log_prob和 entropy。
判別器網(wǎng)絡(luò)模型訓(xùn)練時(shí),回放數(shù)據(jù)文件中的聯(lián)合態(tài)勢(shì)和相應(yīng)的動(dòng)作命令組合成為演示樣本數(shù)據(jù)輸入到判別器網(wǎng)絡(luò),計(jì)算演示樣本的損失函數(shù);模仿樣本數(shù)據(jù)輸入到判別器網(wǎng)絡(luò),計(jì)算模仿樣本的損失函數(shù),總損失函數(shù)如表達(dá)式(4)所示。
由于判別器網(wǎng)絡(luò)和表演者網(wǎng)絡(luò)均未對(duì)不同Agent共享神經(jīng)網(wǎng)絡(luò)參數(shù),訓(xùn)練需要明顯更多的輪次和更長(zhǎng)的時(shí)間。第一次訓(xùn)練后期發(fā)現(xiàn)表演者網(wǎng)絡(luò)的回報(bào)區(qū)域穩(wěn)定周期的振蕩,但表演者的損失仍然較高,顯示網(wǎng)絡(luò)進(jìn)入過擬合階段,因此重新采用對(duì)抗仿真引擎采集新的一批樣本以提高多樣性進(jìn)行第二次訓(xùn)練,經(jīng)過第二次訓(xùn)練表演者網(wǎng)絡(luò)回報(bào)得到了進(jìn)一步提高。
訓(xùn)練網(wǎng)絡(luò)性能統(tǒng)計(jì)曲線如圖5所示,左上圖為判別器判別演示樣本的準(zhǔn)確率,右上圖為判別器判別模仿樣本的準(zhǔn)確率,左下圖為表演者網(wǎng)絡(luò)的損失函數(shù),右下圖為回報(bào)值,從圖中可以看出回報(bào)值在1 200步左右達(dá)到了極值之后處于平穩(wěn)狀態(tài),表明已經(jīng)完成模型訓(xùn)練。
訓(xùn)練量得到的表演者網(wǎng)絡(luò)模型與產(chǎn)生回放數(shù)據(jù)的藍(lán)方規(guī)則模型進(jìn)行對(duì)局,對(duì)局次數(shù)為200次。表演者網(wǎng)絡(luò)的作戰(zhàn)性能達(dá)到了所模仿的紅方規(guī)則模型,勝率達(dá)到了0.52。在完成GAN模型的訓(xùn)練后,在此基礎(chǔ)上進(jìn)行DQN網(wǎng)絡(luò)的訓(xùn)練,之后再次對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試,紅方網(wǎng)絡(luò)的勝率達(dá)到了0.63。
在采用GAN方法建立紅藍(lán)雙方的AI模型并通過模型訓(xùn)練后,固化模型參數(shù)。以固化后的模型為基礎(chǔ),進(jìn)行相關(guān)的RMS仿真軟件開發(fā)。將RMS參數(shù)帶入功能模型,通過MC-MC方法以及多Agent方法仿真分析RMS指標(biāo)參數(shù)對(duì)于作戰(zhàn)性能的影響。
圖5 網(wǎng)絡(luò)訓(xùn)練性能統(tǒng)計(jì)曲線
在紅藍(lán)雙方博弈對(duì)抗的基礎(chǔ)上,以紅方的勝率作為紅方作戰(zhàn)性能的表征。對(duì)弈的藍(lán)方暫不考慮由于RMS造成的作戰(zhàn)性能下降問題,紅方的戰(zhàn)斗機(jī)集群和轟炸機(jī)集群考慮由于戰(zhàn)備完好率A、單機(jī)失效率λ和控制信號(hào)可用度C作為RMS核心參數(shù),進(jìn)行MC-MC仿真,建立紅方集群無人機(jī)RMS指標(biāo)與作戰(zhàn)性能的關(guān)系。為了簡(jiǎn)化計(jì)算,我們?cè)O(shè)定戰(zhàn)斗機(jī)和轟炸機(jī)的戰(zhàn)備完好率、單機(jī)失效率和控制信號(hào)中斷率的設(shè)定值取為相同。RMS仿真建模的計(jì)算程序如圖6所示。
選取戰(zhàn)備完好率A、單機(jī)失效率λ和控制信號(hào)可用度C這三個(gè)RMS因素進(jìn)行仿真計(jì)算,每個(gè)因素選擇不同水平進(jìn)行組合后進(jìn)行紅藍(lán)雙方對(duì)抗,每種組合對(duì)抗200局以上,記錄紅方勝率。戰(zhàn)備完好率A范圍[0.8,1],單機(jī)失效率λ范圍為[0,0.5h-1],控制信號(hào)可用度范圍為[0.9,1]。對(duì)紅方勝率進(jìn)行三因素四階響應(yīng)建模,得到RMS參數(shù)與勝率的定量關(guān)系如表2所示。
圖6 RMS仿真計(jì)算流程圖
表2 RMS參數(shù)與勝率4階響應(yīng)面模型擬合結(jié)果
圖7 單因素RMS參數(shù)與勝率擬合曲線
從擬合結(jié)果分析,在理想情況下分別考慮單因素RMS參數(shù)對(duì)勝率的關(guān)系曲線如圖7所示。單因素下戰(zhàn)備完好率A范圍[0.8,1]時(shí)勝率為[0.5039088, 0.632325];單機(jī)失效率λ范圍為[0,0.5h-1]時(shí)勝率為[0.2568787,0.632325];控制信號(hào)可用度范圍為[0.9,1]時(shí)勝率為[0.616531, 0.632325]。
上一節(jié)分析結(jié)果表明,考慮真實(shí)物理世界軟硬件的RMS參數(shù)后,強(qiáng)對(duì)抗智能網(wǎng)絡(luò)的執(zhí)行性能比理想情況低。對(duì)于神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練是一個(gè)逐步逼近最優(yōu)解的過程,理想情況下經(jīng)過訓(xùn)練得到的強(qiáng)對(duì)抗智能模型最優(yōu)解并非是非理想情況下考慮了RMS參數(shù)約束后的最優(yōu)解,示意圖如圖8所示。
需要在模型訓(xùn)練的過程中將RMS參數(shù)作為約束條件帶入。在原先建立的GAN強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,考慮戰(zhàn)備完好率的影響。假設(shè)實(shí)際的戰(zhàn)備完好率在0.8左右,暫不考慮單機(jī)失效率和控制信號(hào)完好率的影響,我們以此為約束條件,對(duì)GAN建立的DQN模型訓(xùn)練的每個(gè)episod中,通過抽樣隨機(jī)生成該episod可用的飛機(jī)數(shù),并使得多次抽樣戰(zhàn)備完好率期望值為0.8。經(jīng)過這樣的設(shè)定后,經(jīng)過訓(xùn)練得到在戰(zhàn)備完好率0.8時(shí)得到性能優(yōu)化的強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)。對(duì)訓(xùn)練得到的網(wǎng)絡(luò)進(jìn)行性能測(cè)試,并與原網(wǎng)絡(luò)的性能進(jìn)行對(duì)比,得到的性能曲線如圖9所示,圖中正方形點(diǎn)和三角形分別表示戰(zhàn)備完好率為1和0.8條件下得到的強(qiáng)對(duì)抗網(wǎng)絡(luò)性能。從圖中可以看出,戰(zhàn)備完好率為0.8條件下優(yōu)化的控制模型斜率更為平緩,表明其具有更好的魯棒特性,同時(shí)戰(zhàn)備完好率參數(shù)等于0.8時(shí)的紅方勝率相對(duì)提高了8.8 %。
圖8 神經(jīng)網(wǎng)絡(luò)參數(shù)、性能及RMS參數(shù)關(guān)系示意
圖9 不同戰(zhàn)備完好率優(yōu)化條件下的強(qiáng)對(duì)抗網(wǎng)絡(luò)模型性能
本文基于GAN方法,探討建立強(qiáng)對(duì)抗網(wǎng)絡(luò)的方法,并根據(jù)歷史回放數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練。對(duì)訓(xùn)練得到的理想情況下的強(qiáng)對(duì)抗網(wǎng)絡(luò),采用可靠性仿真計(jì)算方法,得到不同RMS參數(shù)下對(duì)應(yīng)的強(qiáng)對(duì)抗網(wǎng)絡(luò)性能,并采用響應(yīng)面模型建立RMS參數(shù)與強(qiáng)對(duì)抗網(wǎng)絡(luò)性能定量公式。通過可靠性仿真計(jì)算,可以分析各RMS參數(shù)對(duì)于網(wǎng)絡(luò)性能的影響情況,為人工智能強(qiáng)對(duì)抗網(wǎng)絡(luò)與真實(shí)物理世界的連接提供了可靠性分析的技術(shù)途徑。為提高物理世界條件下強(qiáng)對(duì)抗網(wǎng)絡(luò)的可靠性,進(jìn)一步分析了在RMS參數(shù)造成強(qiáng)對(duì)抗網(wǎng)絡(luò)性能下降的原因,并提出在考慮RMS參數(shù)后進(jìn)行網(wǎng)絡(luò)性能優(yōu)化的方法,提升強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)在面臨復(fù)雜環(huán)境下裝備發(fā)生物理失效的魯棒特性。