張夢(mèng)鈺, 豆亞杰, 陳子夷, 姜 江, 楊克巍, 葛冰峰
(國(guó)防科技大學(xué)系統(tǒng)工程學(xué)院, 湖南 長(zhǎng)沙 410003)
近年來(lái),隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等一系列新興技術(shù)的大量涌現(xiàn),人工智能技術(shù)不斷取得突破性進(jìn)展。作為21世紀(jì)的頂尖技術(shù)之一,人工智能給各個(gè)領(lǐng)域的發(fā)展都帶來(lái)了前所未有的機(jī)遇和挑戰(zhàn),在軍事領(lǐng)域也不例外。文獻(xiàn)[1]對(duì)大數(shù)據(jù)時(shí)代的軍事信息體系與發(fā)展戰(zhàn)略進(jìn)行了重點(diǎn)研究[1],軍事智能化已不再是一個(gè)陌生的概念,其正在全面影響著軍隊(duì)建設(shè)和未來(lái)戰(zhàn)爭(zhēng)形態(tài)[2]。從應(yīng)用角度來(lái)看,軍事智能化主要體現(xiàn)在以下5個(gè)層次[3]:以無(wú)人機(jī)、無(wú)人車等仿生智能為主的單裝智能;以人機(jī)融合、集群、協(xié)同等概念為核心的協(xié)同智能;以智能感知、決策、打擊、防御等多要素作戰(zhàn)力量綜合運(yùn)用的體系智能;以通信、網(wǎng)絡(luò)、電子、輿情等專業(yè)領(lǐng)域管控的專項(xiàng)智能;以作戰(zhàn)體系基于數(shù)據(jù)、模型、算法獲取涌現(xiàn)效應(yīng)為目標(biāo)的進(jìn)化智能。人工智能技術(shù)為這些應(yīng)用的落地提供了堅(jiān)實(shí)的基礎(chǔ)。
深度學(xué)習(xí)(deep learning, DL)和強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)作為實(shí)現(xiàn)人工智能的先進(jìn)技術(shù),分別在信息感知和認(rèn)知決策領(lǐng)域有著出色的表現(xiàn)[4-5]。深度RL(deep RL, DRL)[6]則是近幾年提出的新興概念,其結(jié)合了DL與RL的優(yōu)勢(shì),是人工智能的最新成果之一,在機(jī)器人控制、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、博弈論等領(lǐng)域中都取得了重要研究進(jìn)展。在軍事領(lǐng)域中,針對(duì)作戰(zhàn)任務(wù)規(guī)劃、智能軍事決策與智能博弈對(duì)抗等問(wèn)題的解決,DRL也有著巨大的應(yīng)用潛力,引起了研究人員的廣泛關(guān)注。
目前,關(guān)于DRL的研究已經(jīng)取得了較大進(jìn)展,有一些關(guān)于DRL的綜述性文獻(xiàn)陸續(xù)發(fā)表[6-7],但其更加偏向于對(duì)DRL算法的總結(jié)。除此之外,也有一些關(guān)于DRL在領(lǐng)域應(yīng)用中的綜述,如無(wú)人機(jī)[8]、通信與網(wǎng)絡(luò)[9]、智能制造[10]等領(lǐng)域,然而關(guān)于DRL在軍事領(lǐng)域中的應(yīng)用,并沒(méi)有專門的綜述性文獻(xiàn)對(duì)其進(jìn)行深入梳理和總結(jié)?;诖?本文首先回顧了DRL的理論發(fā)展歷程;然后對(duì)DRL的基本算法及改進(jìn)算法進(jìn)行了歸納總結(jié);最后對(duì)前人研究中DRL在軍事領(lǐng)域武器裝備、網(wǎng)絡(luò)安全、無(wú)人機(jī)編隊(duì)、智能決策與博弈等問(wèn)題的應(yīng)用現(xiàn)狀進(jìn)行了系統(tǒng)性的梳理和總結(jié),并展望了其發(fā)展方向和前景。
DL是機(jī)器學(xué)習(xí)(machine learning, ML)領(lǐng)域中的一個(gè)研究方向,致力于自動(dòng)學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在特征與規(guī)律,完成數(shù)據(jù)信息的提取工作,使機(jī)器能夠像人類一樣具有分類和識(shí)別等能力。大多數(shù)DL的模型都以人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)為基礎(chǔ)[11-12],其結(jié)構(gòu)如圖1所示。人工神經(jīng)元支撐著整個(gè)神經(jīng)網(wǎng)絡(luò)的工作,組成相互連接的輸入層、隱藏層和輸出層。其中,信息通過(guò)輸入層進(jìn)行獲取,在隱藏層進(jìn)行特征提取后,再通過(guò)輸出層輸出結(jié)果。兩個(gè)神經(jīng)元間的連接稱之為權(quán)重θ,每個(gè)神經(jīng)元接受來(lái)自其他幾個(gè)相連接的神經(jīng)元的輸入,這些輸入被乘以分配的權(quán)重θ后相加,接著將總和傳遞給一個(gè)或多個(gè)神經(jīng)元。一些神經(jīng)元可能在將輸出傳遞給下一個(gè)變量之前將激活函數(shù)應(yīng)用于輸出。需要注意的是,這里的輸入值和輸出值是相對(duì)的,較低層的輸出將作為更高一層的輸入。通過(guò)這種多層非線性運(yùn)算,最終實(shí)現(xiàn)DL從訓(xùn)練數(shù)據(jù)中提取特征的目的。
圖1 ANN的結(jié)構(gòu)Fig.1 ANN’s structure
深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)被定義為具有多個(gè)隱藏層的ANN。前饋神經(jīng)網(wǎng)絡(luò)和反饋神經(jīng)網(wǎng)絡(luò)是兩種DNN模型。前饋神經(jīng)網(wǎng)絡(luò)中各個(gè)神經(jīng)元分層排列,每個(gè)神經(jīng)元的輸出僅由當(dāng)前的輸入和權(quán)重θ決定,各層之間無(wú)反饋。而反饋神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的輸出不僅與當(dāng)前的輸入和權(quán)重θ有關(guān),而且與之前的網(wǎng)絡(luò)輸入也密切相關(guān)。與此同時(shí),每個(gè)神經(jīng)元還將自己的輸出作為輸入反饋給其他神經(jīng)元,因此反饋神經(jīng)網(wǎng)絡(luò)需要經(jīng)歷一段時(shí)間的工作后才能實(shí)現(xiàn)穩(wěn)定。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)分別是前饋神經(jīng)網(wǎng)絡(luò)模型和反饋神經(jīng)網(wǎng)絡(luò)模型的典型代表。在DRL中,將CNN和RNN與RL相結(jié)合的算法較多。
CNN是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),在隱藏層中通過(guò)卷積、激活和池化的操作實(shí)現(xiàn)圖像特征提取的功能,近年來(lái)在數(shù)字圖像處理領(lǐng)域應(yīng)用廣泛。目前,常用的CNN包括AlexNet[13]、視覺(jué)幾何組(visual geometry group,VGG)-Net[14]、NIN[15]、深度殘差學(xué)習(xí)[16]等。
RNN的神經(jīng)元之間的連接形成有向循環(huán),隱藏層的值既受當(dāng)前時(shí)刻輸入值的影響,也受上一時(shí)刻隱藏層值的影響,這使得RNN非常適合處理具有時(shí)間組件的應(yīng)用問(wèn)題,例如時(shí)間序列數(shù)據(jù)和自然語(yǔ)言處理。然而,隨著網(wǎng)絡(luò)層數(shù)的加深,RNN常常會(huì)出現(xiàn)梯度消失或梯度爆炸的問(wèn)題[17],因此有學(xué)者提出使用長(zhǎng)短期記憶(long short-term memory, LSTM)[18-19]來(lái)解決這個(gè)問(wèn)題。LSTM通過(guò)合并內(nèi)存單元,能夠使網(wǎng)絡(luò)學(xué)習(xí)在某時(shí)刻“遺忘”先前的隱藏狀態(tài),以及在某時(shí)刻給定新信息的情況下更新隱藏狀態(tài),所以LSTM能夠?qū)W習(xí)RNN無(wú)法完成的長(zhǎng)期復(fù)雜時(shí)間動(dòng)態(tài)。
1.2.1 RL基本過(guò)程
RL又稱為增強(qiáng)學(xué)習(xí)[20],其核心思想是試錯(cuò)機(jī)制,即讓智能體在與環(huán)境的交互過(guò)程中不斷學(xué)習(xí)和反饋,以獲得最大的累計(jì)獎(jiǎng)勵(lì)。通常可以使用馬爾可夫決策過(guò)程(Markov decision process,MDP)對(duì)RL問(wèn)題進(jìn)行建模,表示為一個(gè)五元組(S,A,P,R,γ),其中S代表一個(gè)有限的狀態(tài)集合,A代表一個(gè)動(dòng)作集合,P代表一個(gè)狀態(tài)轉(zhuǎn)移概率矩陣,R代表一個(gè)回報(bào)函數(shù),γ代表一個(gè)折扣因子,具體的學(xué)習(xí)過(guò)程如圖2所示。
圖2 RL基本過(guò)程Fig.2 Basic process of RL
智能體根據(jù)環(huán)境的即時(shí)狀態(tài)st,為了獲得環(huán)境反饋給智能體的最大獎(jiǎng)勵(lì),選擇并執(zhí)行其所認(rèn)為的最優(yōu)動(dòng)作at。環(huán)境接受動(dòng)作at后,以一定概率轉(zhuǎn)移到下一狀態(tài)st+1,并把一個(gè)獎(jiǎng)勵(lì)rt反饋給智能體,智能體根據(jù)獎(jiǎng)勵(lì)rt和當(dāng)前狀態(tài)st+1選擇下一個(gè)動(dòng)作。而t時(shí)刻的累計(jì)獎(jiǎng)勵(lì)Rt就是即時(shí)獎(jiǎng)勵(lì)rt與后續(xù)所有可能采取的動(dòng)作和導(dǎo)致的環(huán)境狀態(tài)的價(jià)值之和。由于距離當(dāng)前狀態(tài)越遠(yuǎn),不確定性越高,需要乘以一個(gè)折扣因子γ,來(lái)調(diào)整未來(lái)的每個(gè)即時(shí)獎(jiǎng)勵(lì)對(duì)于累計(jì)獎(jiǎng)勵(lì)的影響。累計(jì)獎(jiǎng)勵(lì)Rt的公式可表示如下:
(1)
RL算法根據(jù)環(huán)境模型是否已知可以分為兩大類,分別是基于模型的方法和無(wú)模型的方法?;谀P偷腞L指創(chuàng)立環(huán)境模型,讓智能體在虛擬環(huán)境中進(jìn)行學(xué)習(xí)和訓(xùn)練。當(dāng)建立的環(huán)境模型可以精準(zhǔn)描述真實(shí)世界,那么就可以直接基于模型進(jìn)行預(yù)測(cè),而不需要與真實(shí)的環(huán)境進(jìn)行交互,可以大大提高問(wèn)題求解速度?;谀P偷腞L方法可以分為學(xué)習(xí)模型和給定模型兩類。學(xué)習(xí)模型中比較典型的方法是World Models[21]和I2A[22]。給定模型中比較典型的方法是AlphaGo[23]、AlphaZero[24]和Expert Iteration[8]。由于學(xué)習(xí)模型的方法對(duì)模型的精確性要求較高,在實(shí)際應(yīng)用中很難達(dá)到,因而有學(xué)者提出將無(wú)模型的方法與基于模型的方法相結(jié)合[7]。但是,很多實(shí)際問(wèn)題的環(huán)境都是復(fù)雜未知的,這導(dǎo)致建模困難,因此無(wú)模型的方法在實(shí)際中應(yīng)用更加廣泛。對(duì)于無(wú)模型的方法,又可以分為基于價(jià)值的RL、基于策略的RL,以及兩者的結(jié)合。
1.2.2 基于價(jià)值的RL
基于價(jià)值函數(shù)的RL通過(guò)構(gòu)建具有適當(dāng)參數(shù)的函數(shù),來(lái)近似計(jì)算狀態(tài)或行為的價(jià)值,而不必存儲(chǔ)每一個(gè)狀態(tài)和行為的價(jià)值,大大提高了算法效率?;趦r(jià)值函數(shù)的RL方法可以分為在線策略和離線策略兩類。兩者的區(qū)別在于在線策略一般直接使用學(xué)習(xí)獲得的當(dāng)前最優(yōu)策略(目標(biāo)策略)作為行為策略,即只有一個(gè)策略進(jìn)行價(jià)值迭代。因此,在線策略可以對(duì)策略進(jìn)行實(shí)時(shí)評(píng)估,在應(yīng)用場(chǎng)景中邊訓(xùn)練邊使用。而離線策略一般有兩個(gè)策略,目標(biāo)策略與行為策略不同,可以進(jìn)行更充分的探索,在產(chǎn)生豐富樣本的同時(shí)并不會(huì)影響目標(biāo)策略。
文獻(xiàn)[25]的算法基于在線策略的典型算法,迭代公式如下:
Q(st,at)←Q(st,at)+
α[rt+1+γQ(st+1,at+1)-Q(st,at)]
(2)
Q-Learning算法[26]是基于離線策略的典型算法,并且被大量應(yīng)用于軍事決策過(guò)程中[27-28]。Q-Learning算法通過(guò)Q值表對(duì)“狀態(tài)-動(dòng)作對(duì)”的值進(jìn)行記錄,并且通過(guò)公式迭代對(duì)Q值表進(jìn)行更新,迭代公式如下:
(3)
式中:Q(st,at)表示t時(shí)刻的狀態(tài)動(dòng)作價(jià)值,α為學(xué)習(xí)率;r為獎(jiǎng)勵(lì),γ為折扣因子。兩個(gè)公式的區(qū)別在于:式(2)用t+1時(shí)刻的狀態(tài)和動(dòng)作共同決定的Q值來(lái)更新Q(st,at),而式(3)用Q值最大的動(dòng)作來(lái)更新價(jià)值函數(shù)Q(st,at)。
1.2.3 基于策略的RL
基于策略函數(shù)的RL和基于價(jià)值函數(shù)的RL在處理具有連續(xù)行為和龐大空間的問(wèn)題時(shí)能力不足,難以求解隨機(jī)策略的問(wèn)題。通過(guò)將策略看作是關(guān)于狀態(tài)和行為的帶參數(shù)的策略函數(shù)π(a|s,θ),不同于對(duì)價(jià)值函數(shù)進(jìn)行迭代計(jì)算,而是通過(guò)迭代的方式直接更新參數(shù)值θ。當(dāng)累積回報(bào)期望最大時(shí),θ對(duì)應(yīng)的策略就是最優(yōu)策略。通常使用基于策略梯度的算法[29]求解,首先通過(guò)逼近器函數(shù)π(a|s,θ)逼近策略,然后對(duì)策略參數(shù)進(jìn)行梯度下降求解,當(dāng)梯度收斂時(shí)得到最優(yōu)策略?;诓呗院瘮?shù)的RL省去了對(duì)狀態(tài)價(jià)值的學(xué)習(xí)過(guò)程,而是直接輸出具體的行為值,策略梯度可以在連續(xù)分布上選取行為,因而可以處理具有連續(xù)行為的問(wèn)題,但是在一些復(fù)雜問(wèn)題的求解中,基于策略函數(shù)的RL計(jì)算難度較大,迭代時(shí)間過(guò)長(zhǎng)。
1.2.4 基于價(jià)值策略結(jié)合的RL
Sutton等[30]綜合基于價(jià)值函數(shù)的RL和基于策略函數(shù)的RL,提出了一種新的RL算法——行動(dòng)者-評(píng)論家(actor-critic, AC)算法。其中,行動(dòng)者表示基于策略函數(shù)的網(wǎng)絡(luò),在與環(huán)境交互過(guò)程中根據(jù)狀態(tài)選擇策略,而評(píng)論家表示基于價(jià)值函數(shù)的網(wǎng)絡(luò),對(duì)行動(dòng)者選擇的策略進(jìn)行評(píng)價(jià),并指導(dǎo)行動(dòng)者進(jìn)行策略的改進(jìn)。AC算法可以綜合多種價(jià)值函數(shù)方法和策略函數(shù)方法,汲取二者優(yōu)點(diǎn),收斂速度更快。
DRL是近幾年提出的新興概念,其將DL與RL的優(yōu)勢(shì)結(jié)合,是人工智能的最新成果之一。DRL主要有兩種類型:基于值函數(shù)的DRL和基于策略梯度的DRL。
在基于價(jià)值函數(shù)的RL方法中,針對(duì)狀態(tài)和動(dòng)作空間較小的問(wèn)題,Q-Learning算法較容易獲得最優(yōu)策略。但是,當(dāng)狀態(tài)空間或者動(dòng)作空間變得龐大時(shí),繼續(xù)使用Q值表對(duì)狀態(tài)-動(dòng)作對(duì)進(jìn)行存儲(chǔ)給內(nèi)存和時(shí)間都帶來(lái)極大壓力,使算法很難達(dá)到預(yù)期的效果。因此,引出了深度Q網(wǎng)絡(luò)[31](deep Q-networks, DQN)算法來(lái)克服這一缺點(diǎn)。DQN將DNN與Q-Learning相結(jié)合,本質(zhì)上是利用DNN逼近值函數(shù),通過(guò)擬合一個(gè)函數(shù),代替Q值表對(duì)Q值進(jìn)行更新。除此之外,DQN還對(duì)傳統(tǒng)的Q-Learning算法進(jìn)行了如下兩處改進(jìn)。
(1) 經(jīng)驗(yàn)回放:算法首先初始化一個(gè)回放內(nèi)存池,收集樣本并存儲(chǔ)。每次從回放內(nèi)存池中隨機(jī)采集小批量樣本訓(xùn)練DNN,使用梯度下降法更新參數(shù)θ后得到新的值函數(shù),再獲取新的樣本并存入池中。由于每次訓(xùn)練的樣本通常來(lái)自于多次交互序列,大大降低了樣本之間的關(guān)聯(lián)性,進(jìn)一步提升了算法的穩(wěn)定性。
(2)目標(biāo)網(wǎng)絡(luò):在Q-Learning算法訓(xùn)練過(guò)程中,Q值是通過(guò)當(dāng)前時(shí)刻的獎(jiǎng)勵(lì)和下一時(shí)刻的價(jià)值估計(jì)進(jìn)行更新的。由于每一輪迭代都會(huì)產(chǎn)生價(jià)值偏移,偏移影響會(huì)繼續(xù)傳遞給下一輪的迭代計(jì)算,很容易造成算法的不穩(wěn)定。為了解決這個(gè)問(wèn)題,DQN另外設(shè)置了目標(biāo)網(wǎng)絡(luò)來(lái)產(chǎn)生目標(biāo)Q值,通過(guò)行為網(wǎng)絡(luò)和與環(huán)境交互獲取估計(jì)Q值,將估計(jì)Q值與目標(biāo)Q值進(jìn)行比較后得出目標(biāo)值并更新行為網(wǎng)絡(luò)。每經(jīng)過(guò)一定輪數(shù)的迭代,把行為網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò),再進(jìn)行下一階段的學(xué)習(xí)。通過(guò)這種方式,減輕了模型的波動(dòng)。
在DQN的基礎(chǔ)之上,人們又做了許多研究工作,先后提出了Narure DQN[32]、Double DQN[33]、Dueling DQN[34]、Double Dueling DQN(D3QN)[35]、Rainbow DQN[36]等一系列改進(jìn)算法?;谥岛瘮?shù)的DRL主要算法如表1所示,本文對(duì)其提出時(shí)間、改進(jìn)和優(yōu)勢(shì)做了簡(jiǎn)單闡述。
表1 基于值函數(shù)的DRL主要算法Table 1 Main algorithms of DRL based on value function
盡管DQN及其改進(jìn)算法在許多領(lǐng)域都取得了不錯(cuò)的應(yīng)用效果,但是對(duì)于連續(xù)動(dòng)作空間的問(wèn)題還是無(wú)計(jì)可施。Lillicrap等[37]提出了深度確定性策略梯度(deep determi-nistic policy gradient,DDPG)算法。DDPG算法集成了DL、DQN以及AC算法,采用DNN建立AC的近似價(jià)值函數(shù),行動(dòng)者網(wǎng)絡(luò)生成確定的行為,評(píng)論家網(wǎng)絡(luò)評(píng)估策略的優(yōu)劣,同時(shí)采取經(jīng)驗(yàn)回放機(jī)制以避免振蕩??梢哉f(shuō),DDPG算法是目前應(yīng)用于復(fù)雜、連續(xù)控制的重要算法,在機(jī)器人控制和無(wú)人機(jī)編隊(duì)等領(lǐng)域都有廣泛應(yīng)用。為解決DDPG算法Critic對(duì)行為Q值過(guò)估計(jì)的問(wèn)題,Haarnoja等[38]提出雙延遲DDPG(twin delayed DDPG,TD3)算法。針對(duì)策略梯度方法中存在的無(wú)法保證步長(zhǎng)而影響訓(xùn)練效果的問(wèn)題,Schulman等[39]提出一種信任域策略優(yōu)化(trust region policy optimization, TRPO)方法。TRPO以優(yōu)勢(shì)函數(shù)為核心,通過(guò)計(jì)算舊策略與更新后策略之間的差值,保證策略始終朝著好的方向持續(xù)更新。由于TRPO算法計(jì)算復(fù)雜,近端策略優(yōu)化(proximal policy optimization, PPO)[40]和分布式DPPO(distributed PPO)[41]等改進(jìn)算法被先后提出,用以改進(jìn)訓(xùn)練效率。
此外,基于AC算法、優(yōu)勢(shì)函數(shù)和異步算法,Mnih等[42]又提出一種異步優(yōu)勢(shì)的AC(asynchronous advantage AC, A3C)算法,在AC算法基礎(chǔ)上,采用優(yōu)勢(shì)函數(shù)判斷行為的優(yōu)劣,讓多個(gè)智能體同時(shí)對(duì)環(huán)境進(jìn)行探索,單個(gè)智能體獨(dú)立工作并在線更新整體的策略參數(shù)。通過(guò)這樣的方式縮短學(xué)習(xí)訓(xùn)練的時(shí)間,提升訓(xùn)練效果。優(yōu)勢(shì)AC(advantage AC, A2C)算法[43]去除了A3C算法的異步,中間過(guò)程采用同步控制,解決了A3C中不同智能體使用策略的累計(jì)更新效果可能不是最優(yōu)的問(wèn)題?;诓呗蕴荻鹊腄RL主要算法及部分改進(jìn)算法如表2所示。
表2 基于策略梯度的DRL主要算法Table 2 Main algorithms of DRL based on policy gradient
隨著現(xiàn)代科技的飛速發(fā)展,越來(lái)越多的人工智能技術(shù)被引入軍事領(lǐng)域以解決復(fù)雜問(wèn)題,DRL作為人工智能的最新成果之一,與軍事領(lǐng)域的聯(lián)系也日益緊密。為了進(jìn)一步明確DRL技術(shù)對(duì)軍隊(duì)建設(shè)和未來(lái)作戰(zhàn)模式的影響,以及在軍事領(lǐng)域中的應(yīng)用點(diǎn),本文在知網(wǎng)和web of science上選取了近15年來(lái)相關(guān)的參考文獻(xiàn),并使用citespace進(jìn)行處理。由于直接以“DRL”和“軍事”為關(guān)鍵詞對(duì)文獻(xiàn)進(jìn)行檢索獲取的文獻(xiàn)數(shù)量較少,難以進(jìn)行深入分析,本文擴(kuò)大了搜索范圍,以“人工智能”和“軍事”為關(guān)鍵詞進(jìn)行了檢索和分析,最終檢索和分析結(jié)果如圖3所示。另外,由于分析得出的英文關(guān)鍵詞圖譜基本與中文關(guān)鍵詞圖譜一致,本文不再重復(fù)展示。
圖3 人工智能技術(shù)與軍事領(lǐng)域結(jié)合應(yīng)用圖譜Fig.3 Application map of artificial intelligence technology combined with military field
從圖3中可以明顯看出,智能的概念已經(jīng)深入到軍事領(lǐng)域的各個(gè)方面,尤其是武器裝備、無(wú)人機(jī)編隊(duì)、網(wǎng)絡(luò)安全、指揮控制、智能博弈與決策等與人工智能結(jié)合得最為緊密。除此之外,當(dāng)前對(duì)于軍事訓(xùn)練、情報(bào)偵察、自主無(wú)人系統(tǒng)等問(wèn)題的研究也與智能化不可分割。從圖3中還可以觀察到,“機(jī)器學(xué)習(xí)、DL、RL、大數(shù)據(jù)、云計(jì)算、虛擬現(xiàn)實(shí)”等關(guān)鍵詞語(yǔ)所代表的新興技術(shù)為軍事智能化的應(yīng)用落地提供了強(qiáng)有力的技術(shù)支撐。
DRL是DL和RL相結(jié)合的產(chǎn)物,集成了DL的感知能力和RL的決策能力,對(duì)于解決復(fù)雜問(wèn)題具有巨大潛力?;诖?本文對(duì)上述提及的軍事領(lǐng)域中與人工智能結(jié)合最為緊密的幾大問(wèn)題進(jìn)行了討論,分別就DRL在這幾大問(wèn)題中的應(yīng)用研究現(xiàn)狀進(jìn)行了梳理和總結(jié)。
武器裝備組合選擇問(wèn)題是軍事領(lǐng)域中的一個(gè)研究熱點(diǎn)。組合選擇與運(yùn)用是武器裝備發(fā)揮體系效能的核心,也是武器裝備體系頂層發(fā)展規(guī)劃中的關(guān)鍵問(wèn)題[44]。不同學(xué)者對(duì)此進(jìn)行了大量的探索和嘗試,分別提出了異質(zhì)網(wǎng)絡(luò)模型[45]、差分進(jìn)化算法[46]、遺傳算法[47]、代理模型[48]等理論方法對(duì)武器裝備組合選擇問(wèn)題進(jìn)行優(yōu)化??萍歼M(jìn)步促使武器裝備持續(xù)更新發(fā)展,由于武器裝備組合選擇涉及到多個(gè)階段和多個(gè)周期,并且受到不同的作戰(zhàn)意圖和作戰(zhàn)環(huán)境的影響,具有不同屬性武器裝備的組合維度爆炸,大大增加了武器裝備組合選擇問(wèn)題求解的復(fù)雜性。張驍雄等[49]將Q-Learning方法用于求解多階段的裝備組合選擇與規(guī)劃問(wèn)題,雖然相比傳統(tǒng)的多目標(biāo)決策方法在方案選擇中效果更優(yōu),但是對(duì)回報(bào)函數(shù)的設(shè)置僅考慮了裝備組合效能和成本,而實(shí)際武器裝備組合選擇問(wèn)題還涉及到目標(biāo)狀態(tài)、戰(zhàn)場(chǎng)環(huán)境等多方面因素,數(shù)據(jù)維度不斷提升,采用Q值表存儲(chǔ)運(yùn)動(dòng)狀態(tài)值無(wú)法解決維度爆炸的問(wèn)題。除此之外,軍事領(lǐng)域具有特殊性,很多數(shù)據(jù)無(wú)法獲取,戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,大量信息無(wú)法被完全觀測(cè)也給武器裝備的組合選擇帶來(lái)困難,如何在環(huán)境復(fù)雜和數(shù)據(jù)信息不完備條件下快速生成武器裝備組合選擇方案成為未來(lái)研究的重點(diǎn)。DRL是在傳統(tǒng)的RL算法中加入DNN形成的,對(duì)于解決高維輸入問(wèn)題具有良好效果。同時(shí),DRL具有無(wú)需數(shù)據(jù)樣本、無(wú)需環(huán)境模型、無(wú)需提取特征等優(yōu)勢(shì),解決了數(shù)據(jù)信息依賴問(wèn)題。因此,越來(lái)越多的學(xué)者考慮結(jié)合DRL的方法對(duì)武器裝備組合選擇問(wèn)題進(jìn)行求解。文東日等[50]將裝備組合運(yùn)用問(wèn)題視為在離散動(dòng)作空間的RL問(wèn)題,提出了基于PPO的裝備組合運(yùn)用方法的模型及仿真框架。在武器裝備的動(dòng)態(tài)目標(biāo)分配問(wèn)題中,黃亭飛等[51]考慮到完成目標(biāo)摧毀任務(wù)之后不具有下一狀態(tài),使用當(dāng)前狀態(tài)的Q值替換公式中下一狀態(tài)的Q值對(duì)DQN算法進(jìn)行了改進(jìn),同時(shí)結(jié)合不同類型攔截裝備的屬性特征,提出了基于DQN的多類型攔截裝備復(fù)合式反無(wú)人機(jī)任務(wù)分配方法。
總體而言,目前,將DRL技術(shù)用于解決武器裝備組合選擇問(wèn)題的研究才剛剛起步,許多問(wèn)題都是在想定的作戰(zhàn)環(huán)境和作戰(zhàn)意圖之下進(jìn)行討論研究,而現(xiàn)代戰(zhàn)場(chǎng)態(tài)勢(shì)會(huì)隨時(shí)變化,無(wú)法完全框定在給定的模型之中。因此,在動(dòng)態(tài)條件下實(shí)時(shí)進(jìn)行武器裝備的組合選擇是未來(lái)進(jìn)一步研究的重點(diǎn)。
新時(shí)代下戰(zhàn)爭(zhēng)觀念發(fā)生轉(zhuǎn)變,傳統(tǒng)的以武器為核心的作戰(zhàn)方式漸漸向以網(wǎng)絡(luò)為中心的信息化作戰(zhàn)方式發(fā)生轉(zhuǎn)變。當(dāng)前的網(wǎng)絡(luò)化戰(zhàn)爭(zhēng)已經(jīng)將情報(bào)偵察、指揮決策、武器控制、通信聯(lián)絡(luò)等信息系統(tǒng)通過(guò)計(jì)算機(jī)連接成通信網(wǎng)絡(luò),向著體系作戰(zhàn)的方向發(fā)展[52]。隨著復(fù)雜網(wǎng)絡(luò)理論的發(fā)展和成熟,許多學(xué)者選擇將軍事通信網(wǎng)絡(luò)系統(tǒng)抽象為復(fù)雜網(wǎng)絡(luò)進(jìn)行研究,即將各系統(tǒng)以及各系統(tǒng)中的實(shí)體視為節(jié)點(diǎn),將關(guān)系視為邊,建立軍事通信網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)模型[53-55],并基于模型進(jìn)行網(wǎng)絡(luò)安全性、可生存性和可恢復(fù)性的研究。基于抽象的網(wǎng)絡(luò)識(shí)別出關(guān)鍵節(jié)點(diǎn),對(duì)其進(jìn)行保護(hù)(或破壞)將最大限度地增強(qiáng)(或降低)網(wǎng)絡(luò)的功能。近期蓬勃發(fā)展的圖網(wǎng)絡(luò)是一個(gè)將網(wǎng)絡(luò)科學(xué)與DL相結(jié)合的領(lǐng)域,正被大量應(yīng)用于復(fù)雜系統(tǒng)建模工作。目前,已有學(xué)者使用DRL和圖神經(jīng)網(wǎng)絡(luò)結(jié)合的方法對(duì)網(wǎng)絡(luò)安全問(wèn)題進(jìn)行處理,并取得了良好的效果。Fan等[56]使用歸納式圖表示學(xué)習(xí)技術(shù)從鄰域迭代聚合節(jié)點(diǎn)嵌入向量,這些向量被初始化為節(jié)點(diǎn)特征,用以描述狀態(tài)與動(dòng)作,使用連通性度量代替獎(jiǎng)勵(lì),并利用DQN自動(dòng)學(xué)習(xí)優(yōu)化目標(biāo),綜合上述方法提出了一個(gè)DRL框架FINDER。FINDER的提出也為復(fù)雜網(wǎng)絡(luò)問(wèn)題的解決開(kāi)辟了新的研究方向。Xu等[57]在使用FINDER框架識(shí)別出軍用通信網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)后,通過(guò)改進(jìn)遺傳算法的編碼規(guī)則和交叉變異算子,對(duì)軍用通信網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行了優(yōu)化。在網(wǎng)絡(luò)威脅檢測(cè)問(wèn)題中,Praveena等[58]首先利用黑寡婦優(yōu)化(black widow optimization, BWO)算法對(duì)深度信念網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,在此基礎(chǔ)上將深度強(qiáng)化學(xué)習(xí)-BWO(deep reinforcement learning-BWO, DRL-BWO)算法用于無(wú)人機(jī)網(wǎng)絡(luò)入侵檢測(cè)。
總體而言,當(dāng)前使用DRL的方法對(duì)軍事網(wǎng)絡(luò)系統(tǒng)進(jìn)行優(yōu)化,大多是與復(fù)雜網(wǎng)絡(luò)理論相結(jié)合。除此之外,在計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域中,還有許多文獻(xiàn)對(duì)使用DRL算法解決資源調(diào)度的問(wèn)題進(jìn)行了研究[59],如路由選擇、任務(wù)調(diào)度和傳輸控制協(xié)議擁塞控制等,未來(lái)可以考慮通過(guò)遷移學(xué)習(xí)的方式將上述研究提出的解決方法遷移到軍事網(wǎng)絡(luò)中,對(duì)相關(guān)問(wèn)題進(jìn)行優(yōu)化改進(jìn)。
隨著智能化控制技術(shù)和空中武器裝備的迅速發(fā)展,空中力量在對(duì)抗程度和對(duì)抗節(jié)奏上都實(shí)現(xiàn)了升級(jí),編隊(duì)智能空戰(zhàn)模式將成為奪取制空權(quán)的關(guān)鍵手段。當(dāng)前,常用的編隊(duì)控制方法主要有領(lǐng)導(dǎo)者-跟隨者方法、虛擬結(jié)構(gòu)方法和基于行為的方法3種[60]。但是,由于編隊(duì)控制問(wèn)題涉及的作戰(zhàn)環(huán)境復(fù)雜多變,影響因素眾多,使得狀態(tài)空間龐大,這些方法或多或少出現(xiàn)了應(yīng)用上的短板。DRL算法可以將作戰(zhàn)過(guò)程中的態(tài)勢(shì)信息直接映射到機(jī)動(dòng)動(dòng)作中,而無(wú)需構(gòu)建模型,無(wú)需考慮眾多影響因素之間錯(cuò)綜復(fù)雜的關(guān)系,針對(duì)狀態(tài)空間龐大的問(wèn)題也可以有效解決[61],因此被逐漸應(yīng)用于解決編隊(duì)智能體機(jī)動(dòng)控制和協(xié)同決策問(wèn)題。針對(duì)無(wú)人機(jī)協(xié)同控制,Zhao等[62]基于PPO算法提出多智能體聯(lián)合PPO(multi-agent joint PPO, MAJPPO)算法,對(duì)不同智能體的狀態(tài)價(jià)值函數(shù)進(jìn)行滑動(dòng)窗口平均,計(jì)算出集中的狀態(tài)價(jià)值函數(shù)并分配給每個(gè)智能體,解決了由智能體策略變化導(dǎo)致的非平穩(wěn)環(huán)境問(wèn)題。Hu等[63]提出一種雙無(wú)人機(jī)協(xié)同自主機(jī)動(dòng)控制方法,針對(duì)狀態(tài)空間維度爆炸問(wèn)題,首先對(duì)連續(xù)空戰(zhàn)狀態(tài)空間進(jìn)行降維和量化描述,接著基于態(tài)勢(shì)評(píng)估結(jié)果設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),并提出了一種優(yōu)先采樣策略,以解決傳統(tǒng)DQN算法訓(xùn)練時(shí)收斂速度慢的問(wèn)題。實(shí)驗(yàn)表明,該方法顯著提高了無(wú)人機(jī)的避障、編隊(duì)和對(duì)抗能力。張耀中等[64]通過(guò)引入基于滑動(dòng)平均值的軟更新策略,降低了DDPG算法的參數(shù)震蕩,提高了無(wú)人機(jī)集群協(xié)同執(zhí)行追擊任務(wù)的成功率。
總體而言,當(dāng)前研究主要從多智能體DRL算法優(yōu)化的角度對(duì)無(wú)人機(jī)編隊(duì)控制問(wèn)題進(jìn)行改進(jìn),但是,大多數(shù)研究都弱化了多智能體間的交流協(xié)作,更加注重任務(wù)的完成速度。實(shí)際作戰(zhàn)過(guò)程往往涉及多個(gè)主體,各主體之間的有效溝通對(duì)于提高任務(wù)的成功率有重要影響,這也是未來(lái)需要進(jìn)一步著重研究的問(wèn)題之一。
2016年,AlphaGo[65]擊敗李世石成為DRL領(lǐng)域中一項(xiàng)里程碑式的研究成果,表明DRL方法能夠有效解決完全信息博弈問(wèn)題。2017年,AlphaGo Zero[66]的問(wèn)世再一次刷新了人們對(duì)DRL方法的認(rèn)知,AlphaGo Zero不再需要人類的經(jīng)驗(yàn)作為先驗(yàn)知識(shí),將原先獨(dú)立的策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)合并后大大降低了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,實(shí)驗(yàn)表明AlphaGo Zero的能力完勝AlphaGo,展現(xiàn)出DRL方法在智能決策與博弈領(lǐng)域中應(yīng)用的強(qiáng)大潛力。在軍事領(lǐng)域中,基于DRL的的智能決策與博弈是通過(guò)數(shù)據(jù)信息、專家知識(shí)和一定規(guī)則,建立博弈對(duì)抗過(guò)程中各類行動(dòng)實(shí)體的模型,針對(duì)復(fù)雜戰(zhàn)場(chǎng)環(huán)境下動(dòng)態(tài)不確定性的智能決策問(wèn)題,利用模型進(jìn)行決策分析,為指揮控制方案的確定提供了數(shù)據(jù)支撐[67]。Wang等[68]考慮到對(duì)手機(jī)動(dòng)策略同樣具有不確定性,使用DQN訓(xùn)練了用于雙方飛機(jī)引導(dǎo)的機(jī)動(dòng)策略智能體,同時(shí)通過(guò)獎(jiǎng)勵(lì)塑造的方法對(duì)算法進(jìn)行優(yōu)化,提高了訓(xùn)練收斂速度。智能體和對(duì)手通過(guò)交替凍結(jié)策略的方式進(jìn)行訓(xùn)練,具備了更好的對(duì)抗能力。Zhang等[69]針對(duì)源自無(wú)人機(jī)作戰(zhàn)場(chǎng)景的多智能體作戰(zhàn)問(wèn)題提出了3種訓(xùn)練技術(shù),并分別將其與多智能體深度Q學(xué)習(xí)和多智能體深度確定性策略梯度相結(jié)合,提高了兩種算法的收斂速度和性能。除了博弈對(duì)抗,DRL在智能決策問(wèn)題中也有很大的應(yīng)用價(jià)值,有學(xué)者利用DRL訓(xùn)練模型或改進(jìn)算法,實(shí)現(xiàn)了作戰(zhàn)過(guò)程中智能體的自主決策。Bai等[70]利用TD3算法對(duì)無(wú)人機(jī)自主機(jī)動(dòng)模型進(jìn)行訓(xùn)練,使無(wú)人機(jī)能夠根據(jù)位置、速度、相對(duì)方位角等態(tài)勢(shì)信息自主做出機(jī)動(dòng)決策。Kong等[71]對(duì)DDPG算法做出了兩個(gè)改進(jìn),一方面考慮到飛機(jī)傳感器的誤差可能會(huì)影響智能體的決策,在策略梯度中引入正則化器來(lái)加強(qiáng)策略網(wǎng)絡(luò)的魯棒性;另一方面利用最大熵逆RL算法對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行規(guī)劃,以加速算法的收斂。況立群等[72]分別采用優(yōu)先級(jí)經(jīng)驗(yàn)重放機(jī)制提升價(jià)值經(jīng)驗(yàn)的學(xué)習(xí)率、采取奧恩斯坦-烏倫貝克噪聲和高斯噪聲相結(jié)合的探索策略加速算法收斂、采用多智能體單訓(xùn)練模式提升算法收斂速度和穩(wěn)定性對(duì)DDPG算法進(jìn)行改進(jìn),在解決復(fù)雜連續(xù)的軍事決策控制問(wèn)題中表現(xiàn)突出。
總體而言,雖然DRL在解決智能決策與博弈問(wèn)題時(shí)具有很大潛力,但是目前針對(duì)軍事領(lǐng)域博弈問(wèn)題的研究仍然存在一些不可避免的問(wèn)題。一方面,真實(shí)戰(zhàn)場(chǎng)環(huán)境中大量信息是復(fù)雜未知的,屬于不完備信息博弈,這是其與棋盤博弈最大的差別所在,給DRL解決戰(zhàn)場(chǎng)博弈問(wèn)題帶來(lái)極大挑戰(zhàn);另一方面,不同智能體協(xié)同合作時(shí)可能會(huì)出現(xiàn)目標(biāo)沖突的問(wèn)題,如何權(quán)衡決策也是一大難題。針對(duì)這一問(wèn)題,在2021年“決策智能與計(jì)算前沿”論壇上,有學(xué)者指出未來(lái)可以采用全局DRL、局部博弈論的方式進(jìn)行優(yōu)化處理,該設(shè)想有待進(jìn)一步加強(qiáng)研究。
除了上述問(wèn)題,DRL在軍事領(lǐng)域的其他問(wèn)題上也有大量應(yīng)用。情報(bào)偵察是軍事博弈中關(guān)鍵的一環(huán),掌握更多的情報(bào)信息是取得戰(zhàn)爭(zhēng)勝利的籌碼,Ghadermazi等[73]站在攻擊者的立場(chǎng),通過(guò)建立對(duì)抗性的DRL模型使智能體做出重要的順序決策,實(shí)現(xiàn)具有破壞性的目標(biāo)任務(wù),并基于訓(xùn)練的模型構(gòu)建威脅檢測(cè)器,通過(guò)分析具有不完整軌跡信息的對(duì)手的可疑活動(dòng)來(lái)識(shí)別威脅信號(hào)。人是生成戰(zhàn)斗力最具決定性的能動(dòng)要素,軍事訓(xùn)練有助于提高軍人素質(zhì),Kallstrom等[74]使用多智能體DRL方法設(shè)計(jì)了具有高質(zhì)量行為模型的合成對(duì)手,幫助人類飛行員進(jìn)行訓(xùn)練,可以應(yīng)用于復(fù)雜場(chǎng)景下的訓(xùn)練任務(wù)。在智能調(diào)度問(wèn)題中,Feng[75]用圖像表示資源利用狀態(tài),基于A2C算法為艦載機(jī)保障作戰(zhàn)過(guò)程中的多種資源有效協(xié)調(diào)和調(diào)度問(wèn)題提供了一種解決方案。除此之外,在路徑規(guī)劃問(wèn)題中,文獻(xiàn)[76-78]分別基于DQN、Double DQN和D3QN算法對(duì)機(jī)器人或無(wú)人機(jī)路徑規(guī)劃問(wèn)題進(jìn)行了求解。
雖然DRL算法在其他領(lǐng)域中已經(jīng)取得了不錯(cuò)的應(yīng)用成效,但是針對(duì)軍事領(lǐng)域,許多問(wèn)題的研究才剛剛起步。就上述提及的軍事領(lǐng)域中的幾大關(guān)鍵問(wèn)題,結(jié)合DRL的研究程度也存在較大差異,有的問(wèn)題才剛剛開(kāi)始探索,有的問(wèn)題已經(jīng)有了較為成熟的算法,既無(wú)法一概而論,又很難針對(duì)軍事領(lǐng)域下的每個(gè)子問(wèn)題都展開(kāi)方法的演化分析。
因此,本文從軍事領(lǐng)域整體的角度出發(fā),對(duì)目前重點(diǎn)關(guān)注的幾大類問(wèn)題進(jìn)行方法關(guān)系和演化過(guò)程的梳理。為了更加清晰明了地呈現(xiàn)出問(wèn)題與方法以及方法與方法之間的關(guān)系,本文一方面從問(wèn)題視角切入,采用表格的形式分類介紹了不同問(wèn)題使用的DRL方法,如表3所示;另一方面從方法視角切入,以演化圖的形式介紹了各類DRL方法的發(fā)展過(guò)程以及相互之間的關(guān)系,同時(shí)對(duì)該方法目前可以解決的具體問(wèn)題進(jìn)行了標(biāo)注,如圖4所示。
表3 DRL在軍事領(lǐng)域中的應(yīng)用Table 3 Application of DRL in military field
圖4 DRL方法演化圖Fig.4 Method evolution diagram of DRL
DRL發(fā)展至今,已經(jīng)提出了許多算法,其中最基本的就是DQN。由于DQN提出時(shí)間最早,同時(shí)也最簡(jiǎn)單,大量算法都在DQN的基礎(chǔ)之上進(jìn)行改進(jìn)。目前,應(yīng)用比較廣泛的算法都是以DQN、DDPG、PPO為基礎(chǔ)的改進(jìn)算法。其中,DQN主要應(yīng)用于離散動(dòng)作空間,DDPG主要應(yīng)用于連續(xù)動(dòng)作空間,而PPO既可以應(yīng)用于離散動(dòng)作空間,又可以應(yīng)用于連續(xù)動(dòng)作空間。
在這些算法的實(shí)際應(yīng)用過(guò)程中,受到重點(diǎn)關(guān)注的問(wèn)題之一就是模型的訓(xùn)練時(shí)長(zhǎng)?,F(xiàn)有的DRL模型通常需要消耗大量的時(shí)間進(jìn)行訓(xùn)練,才能夠?qū)崿F(xiàn)自主決策。時(shí)間復(fù)雜度決定了模型的訓(xùn)練時(shí)間,若以一個(gè)episode表示智能體從開(kāi)始執(zhí)行任務(wù)到任務(wù)結(jié)束,以nm表示episode的數(shù)量,以nt表示一個(gè)episode中的時(shí)間步數(shù)量,當(dāng)episode和nt的值非常大時(shí),算法的時(shí)間復(fù)雜度取決于episode的數(shù)量和每個(gè)episode中的時(shí)間步數(shù)量,表示為O(ntnm)。
如果要將算法落地于實(shí)際工作,必須根據(jù)任務(wù)的特點(diǎn)選擇合適的算法,并不是每種算法都適用于解決某一類問(wèn)題。對(duì)于前文提及的軍事領(lǐng)域中的不同問(wèn)題,在依據(jù)動(dòng)作空間的類型對(duì)問(wèn)題進(jìn)行分析后,再進(jìn)行選擇。對(duì)于武器裝備組合選擇問(wèn)題,動(dòng)作空間主要由單元、目標(biāo)、離散化后的時(shí)間、任務(wù)和條令構(gòu)成,屬于離散動(dòng)作空間,因此DQN系列算法和PPO算法在此類問(wèn)題中較為適于應(yīng)用。對(duì)于軍事網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化問(wèn)題,動(dòng)作空間主要由網(wǎng)絡(luò)中的節(jié)點(diǎn)組成,同樣屬于離散動(dòng)作空間,目前大多采用DQN系列算法識(shí)別關(guān)鍵節(jié)點(diǎn)后進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。對(duì)于無(wú)人機(jī)編隊(duì)控制和無(wú)人機(jī)機(jī)動(dòng)決策這類問(wèn)題,無(wú)人機(jī)的運(yùn)動(dòng)過(guò)程是連續(xù)的,目前主要有兩種處理方式,一種是采用任務(wù)環(huán)境網(wǎng)格化的離散處理方式,采用DQN系列算法進(jìn)行處理。這種處理方式雖然在一定程度上可以獲得相應(yīng)的解決方案,但是DQN系列算法只能處理小規(guī)模的問(wèn)題,在大規(guī)模問(wèn)題上適應(yīng)性并不好,而且采用網(wǎng)格化處理之后,問(wèn)題過(guò)于簡(jiǎn)單,不能完全模擬實(shí)際環(huán)境;另一種處理方式是采用連續(xù)的任務(wù)環(huán)境,用連續(xù)的空間位置坐標(biāo)表示無(wú)人機(jī)的位置,采用DDPG算法進(jìn)行處理。由于DDPG算法對(duì)于狀態(tài)空間和行為空間的大小沒(méi)有限制,因此算法的適應(yīng)性更好,研究前景更加光明。除此之外,在調(diào)度、訓(xùn)練、路徑規(guī)劃這類離散動(dòng)作空間問(wèn)題中,DQN系列算法的適應(yīng)性更好。
但是,無(wú)論是DQN系列算法還是DDPG算法,都存在一個(gè)共性的問(wèn)題,即模型訓(xùn)練時(shí)間過(guò)長(zhǎng),特別是當(dāng)問(wèn)題由單智能體轉(zhuǎn)向多智能體,動(dòng)作空間和狀態(tài)空間更加龐大,訓(xùn)練耗時(shí)大幅上升。針對(duì)這一問(wèn)題,現(xiàn)有研究主要通過(guò)改進(jìn)DRL算法進(jìn)行改善,例如TD3和PPO等,但是也不能完全解決訓(xùn)練時(shí)長(zhǎng)的問(wèn)題。因此,未來(lái)需要就這一問(wèn)題繼續(xù)改進(jìn),這也是提高各類DRL算法適應(yīng)性的關(guān)鍵所在。
DRL技術(shù)為解決軍事領(lǐng)域的問(wèn)題開(kāi)辟了一條嶄新的道路。本文在回顧了DRL基本原理和主要算法的基礎(chǔ)上,對(duì)當(dāng)前DRL方法在武器裝備、網(wǎng)絡(luò)安全、無(wú)人機(jī)編隊(duì)、智能決策與博弈、情報(bào)、訓(xùn)練、調(diào)度和路徑規(guī)劃等問(wèn)題中的應(yīng)用現(xiàn)狀進(jìn)行了梳理與總結(jié)。
可以發(fā)現(xiàn),雖然DRL技術(shù)在軍事領(lǐng)域的應(yīng)用日益廣泛,但仍然處于剛剛起步和不斷完善的階段。需要注意的是,理論研究可行并不意味著實(shí)踐一定會(huì)成功,考慮到人力、物力、財(cái)力與安全等因素,軍事領(lǐng)域中的許多問(wèn)題都難以在現(xiàn)實(shí)中進(jìn)行方法的效果驗(yàn)證。除此之外,由于現(xiàn)實(shí)戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,實(shí)驗(yàn)中建立的問(wèn)題模型可能無(wú)法與實(shí)際情況完全一致,進(jìn)而影響問(wèn)題的求解和方法的應(yīng)用效果。因此,在實(shí)際推進(jìn)DRL技術(shù)在軍事領(lǐng)域的應(yīng)用落地與具體實(shí)現(xiàn)中仍然面臨著諸多挑戰(zhàn)。
除了應(yīng)用方面,在DRL的理論研究中也可以發(fā)現(xiàn),當(dāng)前仍然存在許多局限:軍事領(lǐng)域部分問(wèn)題的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難,不合理的獎(jiǎng)勵(lì)函數(shù)難以實(shí)現(xiàn)預(yù)期的學(xué)習(xí)目標(biāo),例如軍事領(lǐng)域中的無(wú)人機(jī)編隊(duì)機(jī)動(dòng)控制問(wèn)題。每一架飛機(jī)的動(dòng)作都受偏航、俯仰、滾動(dòng)和推力等因素的影響,但是由于無(wú)人機(jī)在執(zhí)行任務(wù)的過(guò)程中很難設(shè)定中間每步的獎(jiǎng)勵(lì),只能使用全局獎(jiǎng)勵(lì),引發(fā)獎(jiǎng)勵(lì)稀疏且滯后的問(wèn)題,致使訓(xùn)練困難;基于DRL的端到端方法可以對(duì)具有相同分布特性的所有問(wèn)題實(shí)例進(jìn)行求解,但是現(xiàn)有的DRL模型通常需要消耗大量的時(shí)間進(jìn)行訓(xùn)練,當(dāng)面對(duì)需要即時(shí)決策而戰(zhàn)場(chǎng)態(tài)勢(shì)信息變化超出訓(xùn)練模型的預(yù)期設(shè)定等問(wèn)題時(shí),很難在短時(shí)間內(nèi)完成模型的訓(xùn)練,嚴(yán)重時(shí)可能貽誤戰(zhàn)機(jī);目前在軍事領(lǐng)域中基于DRL算法所設(shè)計(jì)的多智能體協(xié)同模型很少考慮多智能體間的溝通協(xié)作,而真實(shí)的戰(zhàn)場(chǎng)環(huán)境往往要求具有不同屬性特征的作戰(zhàn)主體協(xié)同配合,僅僅依靠單個(gè)主體很難完成目標(biāo)任務(wù)等等。這些問(wèn)題是否能夠得到有效解決,是目前影響DRL技術(shù)在軍事領(lǐng)域是否能被廣泛應(yīng)用的關(guān)鍵問(wèn)題。
總之,在軍事領(lǐng)域中,當(dāng)前DRL技術(shù)應(yīng)用的難點(diǎn)主要來(lái)自于方法的實(shí)際實(shí)現(xiàn),以及軍事領(lǐng)域特殊性導(dǎo)致的方法的應(yīng)用缺陷,下面提出一些可以進(jìn)行改進(jìn)的思路和方向。
(1) 為了在軍事復(fù)雜環(huán)境中建立更加真實(shí)的模型,可以借助一系列新興的仿真技術(shù)來(lái)構(gòu)建高逼真度、細(xì)粒度的仿真平臺(tái),如數(shù)字孿生和虛擬現(xiàn)實(shí)等技術(shù),進(jìn)一步開(kāi)展DRL方法的效果驗(yàn)證。
(2) 考慮到真實(shí)作戰(zhàn)要求不同能力的主體相互配合,為了加強(qiáng)基于DRL的多智能體間的協(xié)同合作,一方面可以加強(qiáng)對(duì)多智能體之間的通信算法的研究力度,另一方面可以充分利用多智能體協(xié)同研究的現(xiàn)有成果,與DRL進(jìn)行充分結(jié)合。
(3) 對(duì)軍事領(lǐng)域部分問(wèn)題難以設(shè)置獎(jiǎng)勵(lì)函數(shù)的問(wèn)題,除了繼續(xù)對(duì)DL和RL的方法進(jìn)行探索,還可以結(jié)合博弈論、統(tǒng)計(jì)學(xué)、復(fù)雜網(wǎng)絡(luò)、信息論等理論進(jìn)行獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)和改進(jìn)。此外,既然人為設(shè)置獎(jiǎng)勵(lì)函數(shù)十分困難,那么讓系統(tǒng)通過(guò)學(xué)習(xí)和訓(xùn)練自行設(shè)置獎(jiǎng)勵(lì)函數(shù)也許是一個(gè)可行的辦法。
(4) 最后,針對(duì)軍事領(lǐng)域中的即時(shí)決策問(wèn)題,基于DRL的端到端方法前期訓(xùn)練耗費(fèi)時(shí)間長(zhǎng),很難立刻被用于解決現(xiàn)時(shí)問(wèn)題,如果暫時(shí)無(wú)法通過(guò)算法的改進(jìn)來(lái)縮短訓(xùn)練時(shí)長(zhǎng),可以嘗試從硬件的角度出發(fā)進(jìn)行技術(shù)的突破。