摘 要:智能博弈對抗算法不僅充分利用了博弈模型的刻畫精度,還通過神經(jīng)網(wǎng)絡(luò)的強(qiáng)大計算能力和強(qiáng)化學(xué)習(xí)的試錯機(jī)制求解均衡解,使得智能博弈對抗算法在諸多領(lǐng)域都取得了不錯的效果。通過多智能體博弈學(xué)習(xí)、多智能體博弈強(qiáng)化學(xué)習(xí)和多智能體博弈深度強(qiáng)化學(xué)習(xí)三個層面對智能博弈對抗算法進(jìn)行了系統(tǒng)梳理,并結(jié)合情報領(lǐng)域的工作特點(diǎn)分析,論證了智能博弈對抗算法運(yùn)用在情報領(lǐng)域的可行性和必要性,最后給出了智能博弈對抗算法在情報領(lǐng)域的具體應(yīng)用以及后續(xù)提升質(zhì)效的有效措施。
關(guān)鍵詞:智能對抗;博弈論;強(qiáng)化學(xué)習(xí);情報處理
中圖分類號:E917 文獻(xiàn)標(biāo)志碼:A DOI:10.3969/j.issn.1673-3819.2024.06.009
Study of intelligent game adversarial algorithms and
their applications in the intelligence field
LIU Geng1, LIU Xing2
(1. National University of Defense Technology, Nanjing 210000, China; 2. Naval Aviation University, Yantai 264000, China)
Abstract:Intelligent game adversarial algorithms not only make full use of the portrayal accuracy of the game model, but also solve the equilibrium solution through the powerful computational ability of neural network and the trial-and-error mechanism of reinforcement learning, which makes the intelligent game adversarial algorithms achieve good results in many fields. Through the multi-intelligence body game learning, multi-intelligence body game reinforcement learning and multi-intelligence body game deep reinforcement learning three levels of intelligent game confrontation algorithm is systematically sorted out, and the corresponding mapping with the intelligence field of work, demonstrates the feasibility and necessity of intelligent game confrontation algorithm in the field of intelligence, and finally gives the specific application of the intelligent game confrontation algorithm in the field of intelligence and the effective measures of the follow-up to improve the quality and efficiency. Finally, it gives the specific application of intelligent game confrontation algorithm in the field of intelligence, as well as the effective measures to improve the quality and efficiency.
Key words:intelligent game confrontation; game theory; reinforcement learning; intelligence processing
收稿日期:2024-05-11修回日期:2024-06-03
作者簡介:
劉 賡(1985—),男,碩士研究生,研究方向?yàn)榍閳筇幚?、任?wù)規(guī)劃。
劉 星(1982—),男,博士,講師。
博弈強(qiáng)化學(xué)習(xí)結(jié)合博弈論和強(qiáng)化學(xué)習(xí)各自的優(yōu)勢,通過各類博弈強(qiáng)化模型在多個領(lǐng)域內(nèi)取得了不錯的成果[1-2],特別是在有限注德州撲克、無限注德州撲克和網(wǎng)格世界等場景中,相繼打敗人類頂級選手,涌現(xiàn)出大量的優(yōu)質(zhì)博弈強(qiáng)化學(xué)習(xí)算法。隨著強(qiáng)化學(xué)習(xí)技術(shù)不斷進(jìn)步,基于值函數(shù)方法和策略梯度方法的不斷優(yōu)化迭代,通過結(jié)合深度學(xué)習(xí)技術(shù),博弈強(qiáng)化學(xué)習(xí)能夠處理更復(fù)雜的博弈場景和策略優(yōu)化問題。多智能體博弈強(qiáng)化學(xué)習(xí)作為研究智能博弈對抗的前沿課題,面臨對抗性環(huán)境、非平穩(wěn)對手、不完全信息和不確定行動等挑戰(zhàn)。目前,多智能體博弈強(qiáng)化學(xué)習(xí)框架已經(jīng)涵蓋了基礎(chǔ)模型、元博弈模型、均衡解和博弈動力學(xué)等多個方面,在團(tuán)隊(duì)博弈、有限零和博弈、不完全信息擴(kuò)展式博弈中均取得部分突破。但與深度強(qiáng)化學(xué)習(xí)相比,博弈強(qiáng)化學(xué)習(xí)要想進(jìn)一步擴(kuò)展其應(yīng)用范圍,提高算法的適配性,仍需在以下幾個方面深入研究。
1)如何保證博弈模型能夠存在穩(wěn)定的純策略納什均衡?對于智能體而言,混合策略納什均衡的執(zhí)行往往需要進(jìn)行多次決策,并以頻率替代概率,這種做法會花費(fèi)更多的時間和算力。因此,混合策略一直以來飽受詬病,更高效、便捷和泛化的博弈強(qiáng)化學(xué)習(xí)更需要純策略納什均衡。
2)如何求解大規(guī)模博弈對抗問題,以及如何處理博弈對抗過程中的不確定性?軍事博弈對抗中“戰(zhàn)爭迷霧”是普遍存在的,并且存在大量的非線性、非邏輯成分,動態(tài)表征與強(qiáng)弱推理相互交織,由此產(chǎn)生的不確定性問題自然無法避免。如何在僅有局部信息的情況下做出較為合理的選擇,如何在智能體的數(shù)量無法確定時,保證計算的科學(xué)性和高效性,都是博弈強(qiáng)化學(xué)習(xí)算法取得實(shí)效的關(guān)鍵所在。
3)如何表征博弈對抗過程的指揮藝術(shù)?軍事博弈對抗不僅是作戰(zhàn)雙方兵力的較量,也是博弈意志和指揮藝術(shù)的對抗。智能化戰(zhàn)爭中的制勝因素逐漸從信息優(yōu)勢轉(zhuǎn)向智能優(yōu)勢,這使得我方?jīng)Q策目標(biāo)也應(yīng)從“阻斷敵方信息通道”變?yōu)椤皻麛撤阶鲬?zhàn)體系”,實(shí)現(xiàn)此目標(biāo)的前提是我方作戰(zhàn)行動的真實(shí)意圖不易被察覺,故考量指揮藝術(shù)的重要性不言而喻。
情報領(lǐng)域內(nèi)對抗涉及的主體為敵我雙方,充滿了多種真真假假的策略[3-5],博弈強(qiáng)化學(xué)習(xí)能夠應(yīng)用在情報領(lǐng)域的主要原因有以下幾點(diǎn):一是情報領(lǐng)域內(nèi)的多數(shù)工作可以建模成為博弈問題,適合利用博弈強(qiáng)化學(xué)習(xí)算法求解計算。二是情報工作是一個多階段、動態(tài)的活動過程,需要在不同階段根據(jù)環(huán)境和對手的變化進(jìn)行決策調(diào)整。博弈強(qiáng)化學(xué)習(xí)結(jié)合了強(qiáng)化學(xué)習(xí)的動態(tài)決策能力和博弈論的策略分析能力,能夠支持情報工作者在不同階段做出最優(yōu)決策。三是在情報工作中的策略選擇直接影響最終的收益和競爭優(yōu)勢,博弈強(qiáng)化學(xué)習(xí)通過建立準(zhǔn)確的博弈模型,考慮各方面影響因素,構(gòu)建更準(zhǔn)確的博弈支付函數(shù),從而提高策略選擇的準(zhǔn)確性,為情報工作者提供更有價值的決策支持。
本文通過對博弈強(qiáng)化學(xué)習(xí)的深度解析,提煉出當(dāng)前博弈強(qiáng)化學(xué)習(xí)的重難點(diǎn)問題和發(fā)展方向,將核心問題與情報工作的具體要求相互映射,從理論上論證了博弈強(qiáng)化學(xué)習(xí)算法可應(yīng)用在情報領(lǐng)域中,提升了情報工作的質(zhì)效,加速了戰(zhàn)斗力形成。
1 基本概念
博弈強(qiáng)化學(xué)習(xí)涉及的主要概念有博弈論中的納什均衡和用于表述強(qiáng)化學(xué)習(xí)問題的馬爾科夫決策過程,具體的定義如下。
1.1 納什均衡
博弈論中,最核心的環(huán)節(jié)就是求解納什均衡[6]。納什均衡本質(zhì)上是所有博弈玩家策略形成的策略集,在該策略集的加持下,每個玩家在其他玩家策略不變的情況下,該玩家的收益會因?yàn)樽陨聿呗愿鼡Q而減少,即s∈S,i=1,2,…,n,都有如下不等式:
Ri(s,σ1*,…,σn*)≥Ri(s,σ1*,…,σi-1*,σi,σi+1*,…σn*)
其中,σi∈Πi,Πi是玩家i所有可能的策略集合。
1.2 馬爾科夫決策過程[7-8]
MDP由五元組(S,A,P,R,r)構(gòu)成。其中:S是包含所有狀態(tài)的有限集合;A是包含智能體所有可選動作的有限集合;
P定義為S×A×S→[0,1]的狀態(tài)轉(zhuǎn)換函數(shù),表示智能體從某一狀態(tài)采取某動作后變?yōu)橄乱粻顟B(tài)的概率,如果概率為1,則表示采取該動作后一定會到達(dá)該狀態(tài);R定義為S×A×S→R的回報函數(shù),回報函數(shù)指的是智能體從一個狀態(tài)變換成另一個狀態(tài)后,環(huán)境給他的獎勵值,可能是正向獎勵也可能是負(fù)向獎勵;r∈[0,1]是獎勵折扣系數(shù),該系數(shù)充分考慮動作與獎勵的時效性,使得智能體能夠兼顧長期回報和瞬時回報,以獲得最大的長期累積回報的期望。
MDP 的最終求解目標(biāo)是最優(yōu)策略σ*,而最優(yōu)策略的量化指標(biāo)就是期望回報值最大,該值的量化一般用最優(yōu)狀態(tài)動作值函數(shù)形式化表示:
Q*(S,a)=maxπE[RtSt=s,at=a,σ]
如果智能體的數(shù)量大于等于1,且每個智能體所采取的動作都會對其他智能體的回報和環(huán)境產(chǎn)生影響,此時一般稱之為多智能體馬爾可夫決策過程。而單智能體馬爾可夫決策過程則是多智能體的退化版,下一狀態(tài)的變化僅與上一狀態(tài)有關(guān),多智能體的情況要比單智能體復(fù)雜得多。
1.3 博弈強(qiáng)化學(xué)習(xí)
博弈強(qiáng)化學(xué)習(xí)是博弈論和強(qiáng)化學(xué)習(xí)的結(jié)合體,其基本組成部分包含博弈智能體N、激勵函數(shù)f、狀態(tài)集S、動作集A、狀態(tài)轉(zhuǎn)移概率T、折扣因子γ、信息I、行動順序和環(huán)境。博弈強(qiáng)化學(xué)習(xí)是將博弈模型、均衡策略與強(qiáng)化學(xué)習(xí)的試錯機(jī)制相結(jié)合,但學(xué)習(xí)的方式還是試錯機(jī)制,屬于強(qiáng)化學(xué)習(xí)的范疇,而此學(xué)習(xí)過程的目標(biāo)是使博弈中所有智能體的長期累積回報最大,這是與經(jīng)典強(qiáng)化學(xué)習(xí)不同的地方。
此過程應(yīng)當(dāng)注意的是博弈強(qiáng)化學(xué)習(xí)最終學(xué)到的均衡策略也是在該策略下,所有智能體沒有從單方面改變自身策略的動機(jī),故該均衡策略不一定是最優(yōu)策略,此條件下智能體期望的回報值定義為
E[fi(π*,t)St=s,π*]≥E[fi(π′,t)St=s,π′]
其中,π*為最優(yōu)策略,π′與最優(yōu)策略的差異是第i個智能體的策略不同。博弈強(qiáng)化學(xué)習(xí)與強(qiáng)化學(xué)習(xí)、博弈論的內(nèi)在關(guān)系如圖1所示。
2 智能博弈對抗算法研究現(xiàn)狀
2.1 研究現(xiàn)狀
智能博弈對抗的場景復(fù)雜,涉及多個、多種角色,所以解決智能博弈對抗的方法和角度也存在多樣性?;谥悄懿┺膶沟膱鼍昂头椒?,可從多智能體博弈學(xué)習(xí)、多智能體博弈強(qiáng)化學(xué)習(xí)和多智能體博弈深度強(qiáng)化學(xué)習(xí)三個層次梳理當(dāng)前智能博弈對抗算法的研究現(xiàn)狀。
2.2 智能博弈對抗算法
2.2.1 多智能體博弈學(xué)習(xí)
多智能體博弈學(xué)習(xí)涉及多個智能體在博弈環(huán)境中的學(xué)習(xí),這些智能體通過與環(huán)境的交互來適應(yīng)并優(yōu)化自身策略。博弈論是其理論基礎(chǔ),定義了動作、收益等基本概念,并側(cè)重分析理性智能體的博弈結(jié)果,即均衡。多智能體博弈學(xué)習(xí)主要關(guān)注智能體之間的交互和協(xié)作,以及如何通過策略學(xué)習(xí)達(dá)到納什均衡或其他穩(wěn)定狀態(tài)。在多智能體博弈學(xué)習(xí)方面,較為經(jīng)典的算法有Minmax-Q[9]、CFR[10-11]和GDA[12]。
Minmax-Q算法的基本思想是在每個狀態(tài)下,智能體都嘗試找到一個動作,該動作能夠最大化其未來可能的最小回報。實(shí)現(xiàn)方式為博弈樹,其中,每個節(jié)點(diǎn)代表一個狀態(tài),每個邊代表一個可能動作,而葉子節(jié)點(diǎn)則包含在該狀態(tài)下采取特定動作的預(yù)期回報。CFR算法的核心思想是通過模擬博弈過程,計算每個決策點(diǎn)上每個動作的“遺憾值”,并通過迭代更新每個動作的遺憾值,基于這些遺憾值重新計算每個動作的選擇概率,以逐漸優(yōu)化策略。GDA算法通過計算每個類別數(shù)據(jù)的均值和協(xié)方差矩陣來估計高斯分布的參數(shù)。然后,對于新的數(shù)據(jù)點(diǎn),GDA算法根據(jù)新數(shù)據(jù)點(diǎn)屬于各個類別的概率來進(jìn)行分類。上述三類算法的特點(diǎn)如表1所示。
2.2.2 多智能體博弈強(qiáng)化學(xué)習(xí)
多智能體博弈強(qiáng)化學(xué)習(xí)是多智能體博弈學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合。強(qiáng)化學(xué)習(xí)的核心原理是通過智能體與環(huán)境的交互,學(xué)習(xí)如何在給定情境下做出最優(yōu)決策。在多智能體環(huán)境中,每個智能體都會根據(jù)環(huán)境的反饋來調(diào)整自身行為策略,以最大化累積獎勵,除了考慮單個智能體的學(xué)習(xí)和決策過程外,還需要特別關(guān)注智能體間的交互和協(xié)作,以共同優(yōu)化系統(tǒng)性能。常見的多智能體博弈強(qiáng)化學(xué)習(xí)算法有NFSP[13-14]、FOF[15]和Nash-Q-learning算法[16]。
NFSP算法是一種利用強(qiáng)化學(xué)習(xí)技術(shù)從自我博弈中學(xué)習(xí)近似納什均衡的方法。它結(jié)合了虛擬博弈和神經(jīng)網(wǎng)絡(luò)近似函數(shù),適用于不完美信息二人零和博弈。FOF算法主要是利用簡化思想將所有智能體劃分為朋友和敵人,作為朋友的智能體會幫助自身,反之作為敵人則會阻礙目標(biāo)的實(shí)現(xiàn)。該算法的優(yōu)勢在于可以簡化其他智能體對自身的影響,可以處理智能體數(shù)量較多的博弈問題,并且能夠獲得穩(wěn)定且相對有效的解。Nash-Q-Learning算法在Q-Learning的基礎(chǔ)上將Q值替換為Nash-Q值,并要求智能體的策略選擇基于納什均衡,即每次迭代的策略是當(dāng)前階段的均衡策略,任一智能體不會獨(dú)自改變自身策略,由于對均衡點(diǎn)的強(qiáng)制要求,導(dǎo)致該算法要求博弈的每個階段都具有納什均衡點(diǎn),多數(shù)復(fù)雜博弈問題不一定總是滿足該要求。上述三類算法的特點(diǎn)如表2所示。
2.2.3 多智能體博弈深度強(qiáng)化學(xué)習(xí)
多智能體博弈深度強(qiáng)化學(xué)習(xí)在多智能體博弈強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入了深度學(xué)習(xí),深度學(xué)習(xí)允許智能體處理更復(fù)雜、更高維度的狀態(tài)空間和動作空間,從而提高決策準(zhǔn)確性。深度強(qiáng)化學(xué)習(xí)使用深度神經(jīng)網(wǎng)絡(luò)來近似值函數(shù)或策略函數(shù),使得智能體能夠?qū)W習(xí)更復(fù)雜的策略和行為。在多智能體環(huán)境中,每個智能體都需要考慮其他智能體的行為對自身的影響,并制定相應(yīng)的博弈策略。因此,多智能體博弈深度強(qiáng)化學(xué)習(xí)需要解決更復(fù)雜的決策問題,包括如何平衡競爭與合作的關(guān)系、如何對其他智能體進(jìn)行建模以及如何適應(yīng)策略的動態(tài)變化等。常見的多智能體博弈強(qiáng)化學(xué)習(xí)算法有Mean-Field[17-18]、Minimax-DQN[19]和LOLA算法[20]。
Mean-Field算法主要實(shí)行的是少數(shù)服從多數(shù)的原則,策略的選擇依托于大多數(shù)智能體的策略選擇,該算法的優(yōu)勢在于可以解決智能體的數(shù)量問題,即使智能體的數(shù)量較多時,使用該原則可以獲得其他智能體及環(huán)境對于某一智能體的影響,但需要注意過度假設(shè)帶來的誤差問題。Minimax-DQN算法結(jié)合了DQN(Deep Q-Networks)和Minimax原理。DQN算法使用神經(jīng)網(wǎng)絡(luò)來近似Q函數(shù),從而能夠處理高維狀態(tài)空間。而Minimax原理則是一種在零和博弈中尋找最優(yōu)策略的方法,通過考慮對手的最壞情況來制定自己的策略。LOLA算法是讓智能體在更新自己策略的同時考慮其他智能體的學(xué)習(xí)過程。通過建模其他智能體的參數(shù)更新過程來調(diào)整自己的策略,LOLA算法能夠?qū)崿F(xiàn)智能體之間的合作與雙贏。上述三類算法的特點(diǎn)如表3所示。
3 智能博弈對抗技術(shù)在情報領(lǐng)域中的應(yīng)用
3.1 智能博弈對抗技術(shù)運(yùn)用在情報領(lǐng)域的必要性
情報領(lǐng)域內(nèi)的諸多工作,在結(jié)構(gòu)上與博弈問題極度相似,從工作質(zhì)效方面考慮,智能博弈對抗技術(shù)的契合主要體現(xiàn)在三個方面。
一是海量數(shù)據(jù)處理。隨著信息化程度的提高,情報領(lǐng)域產(chǎn)生的數(shù)據(jù)量呈爆炸性增長。傳統(tǒng)的數(shù)據(jù)處理和分析方法已無法滿足快速、準(zhǔn)確獲取有價值情報的需求。智能博弈對抗算法,如深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等,能夠高效處理和分析這些海量數(shù)據(jù),為情報分析提供有力支持。
二是提高決策效率。情報分析往往需要面對復(fù)雜的決策環(huán)境,如多目標(biāo)沖突、不確定性因素等。智能博弈對抗算法能夠模擬真實(shí)世界的復(fù)雜情況,為決策者提供多種可能的決策方案,并評估其優(yōu)劣,從而提高決策效率和準(zhǔn)確性。
三是適應(yīng)動態(tài)變化。情報環(huán)境具有高度的動態(tài)性和不確定性,需要情報分析系統(tǒng)能夠?qū)崟r響應(yīng)并作出調(diào)整。智能博弈對抗算法具有自適應(yīng)性和學(xué)習(xí)能力,能夠根據(jù)環(huán)境變化自動調(diào)整策略,保持對情報環(huán)境的持續(xù)監(jiān)控和分析。
3.2 智能博弈對抗技術(shù)在情報領(lǐng)域中的具體應(yīng)用
人工智能技術(shù)的不斷發(fā)展逐漸解決了多個難題,問題呼吁技術(shù),技術(shù)又可以運(yùn)用于實(shí)踐。軍事對抗或戰(zhàn)爭是技術(shù)實(shí)踐的重要領(lǐng)域,現(xiàn)代戰(zhàn)爭的復(fù)雜度日益提升,決定戰(zhàn)爭走向的因素種類繁多,戰(zhàn)場數(shù)據(jù)量也較以往大幅提升,美國防部披露每年使用超過萬次無人機(jī)收集數(shù)以千萬的實(shí)時數(shù)據(jù)。為在海量數(shù)據(jù)中挖掘有效情報,算法戰(zhàn)跨職能小組(Algorithmic warfare cross functional team, AWCFT)于2017年迅速成立,主要任務(wù)就是使用機(jī)器學(xué)習(xí)算法Maven將從戰(zhàn)場采集的各類數(shù)據(jù)加以處理和分析,并與海軍陸戰(zhàn)隊(duì)的Minotaur系統(tǒng)相互結(jié)合實(shí)時跟蹤目標(biāo)。2018年,美空軍研究實(shí)驗(yàn)室計劃利用三年時間和1億美元重點(diǎn)攻關(guān)網(wǎng)絡(luò)情報智能處理和分類等人工智能技術(shù),類似的項(xiàng)目還有美情報高級研究項(xiàng)目組的水銀項(xiàng)目(Mercury Program)。
故智能技術(shù)在情報領(lǐng)域的作用正在日漸凸顯,情報領(lǐng)域涉及大量的信息收集、整理、分析和傳播,這些信息往往具有不確定性、動態(tài)性和復(fù)雜性。同時,情報領(lǐng)域還涉及多個利益主體之間的博弈和競爭,因此,需要使用智能博弈對抗技術(shù)對情報進(jìn)行高效處理和分析。
3.2.1 情報收集與分析
智能對抗算法在情報收集與分析中的應(yīng)用,主要體現(xiàn)在對海量數(shù)據(jù)的處理、模式識別以及深度分析上。例如,在網(wǎng)絡(luò)安全領(lǐng)域,智能對抗算法可以幫助安全團(tuán)隊(duì)快速識別和過濾出潛在的威脅信息,如惡意軟件、網(wǎng)絡(luò)釣魚攻擊等。通過對這些威脅信息的深度分析,可以了解攻擊者的行為模式、攻擊路徑以及目標(biāo),從而采取相應(yīng)防護(hù)措施。
同時,通過對衛(wèi)星圖像、雷達(dá)數(shù)據(jù)以及電子偵察數(shù)據(jù)的處理和分析,算法能夠自動識別出敵方的重要設(shè)施、裝備部署以及兵力分布等信息。這些信息對于指揮員制定作戰(zhàn)計劃、評估戰(zhàn)場態(tài)勢以及做出決策具有重要的參考價值。
3.2.2 情報對抗與反制
在情報對抗與反制方面,智能對抗算法主要用于識別和防御敵方的情報收集、分析和干擾行為。例如,在電子戰(zhàn)中,智能對抗算法可以幫助我方快速識別出敵方的電子偵察設(shè)備、干擾設(shè)備以及通信設(shè)備等,并采取相應(yīng)的反制措施,以應(yīng)對敵方偵察預(yù)警探測。
此外,智能對抗算法還可以用于對抗敵方的網(wǎng)絡(luò)攻擊和信息滲透。通過構(gòu)建復(fù)雜的網(wǎng)絡(luò)防御體系,算法能夠?qū)崟r監(jiān)測和分析網(wǎng)絡(luò)流量,發(fā)現(xiàn)異常行為后報警。同時,算法還可以生成虛虛實(shí)實(shí)的情報,迷惑敵方情報人員,使其做出錯誤判斷。
3.2.3 決策支持與優(yōu)化
智能對抗算法能夠基于當(dāng)前情報數(shù)據(jù)和態(tài)勢為決策者提供科學(xué)的情報分析結(jié)論,通過對歷史數(shù)據(jù)的學(xué)習(xí)和分析,算法能夠預(yù)測未來的戰(zhàn)場態(tài)勢和發(fā)展趨勢,為指揮員制定作戰(zhàn)計劃提供科學(xué)依據(jù)。智能對抗算法還可以根據(jù)實(shí)時情報數(shù)據(jù),對作戰(zhàn)計劃進(jìn)行動態(tài)調(diào)整和優(yōu)化。例如,在作戰(zhàn)過程中,當(dāng)發(fā)現(xiàn)敵方有新的兵力部署或戰(zhàn)術(shù)調(diào)整時,算法可以迅速分析這些變化對作戰(zhàn)計劃的影響,并提出相應(yīng)優(yōu)化建議。
綜上所述,智能博弈對抗算法在情報收集與分析、情報對抗與反制以及決策支持與優(yōu)化這三個方面發(fā)揮著重要作用。
3.3 提升智能博弈對抗技術(shù)在情報領(lǐng)域質(zhì)效的措施
智能博弈對抗算法在情報領(lǐng)域中的應(yīng)用應(yīng)當(dāng)盡可能結(jié)合對抗實(shí)際,切實(shí)提升計算的精度和效率,以下三個可能是重點(diǎn)研究的方向。
1)拓展更加廣義的策略評估方式?,F(xiàn)有的策略評估方式多基于值函數(shù)對某單一策略進(jìn)行評估,但是值函數(shù)自身的過估計等問題也會造成評估的不準(zhǔn)確[21-22]。在訓(xùn)練過程中,智能體學(xué)習(xí)到的策略有很多個,拋開訓(xùn)練之初的隨機(jī)策略,當(dāng)訓(xùn)練到達(dá)特定階段時,任一策略在特定的狀態(tài)下動作也許是最優(yōu)的。因此,可以通過拓展原有的策略評估方式,對多個策略以及策略之間組合的優(yōu)劣進(jìn)行評估。策略組合可以通過截斷或裁剪的方式提取局部最優(yōu)策略,形成全局最優(yōu)策略。
2)引導(dǎo)智能體演繹科學(xué)的推理行為。智能體的智能性不應(yīng)該局限于學(xué)習(xí)能力,高層次的智能性還應(yīng)當(dāng)具有推理能力[23-25],如何基于已有知識和博弈模型推理出自身的最佳策略,并預(yù)判可能的風(fēng)險是未來該領(lǐng)域發(fā)展的重大挑戰(zhàn),這也是完成從“機(jī)器學(xué)習(xí)”到“學(xué)習(xí)機(jī)器”轉(zhuǎn)變的關(guān)鍵環(huán)節(jié)。在此方向的一些嘗試還處于初步階段,例如各類建模理論,目前的建模只能對于底層行為進(jìn)行推理。除此之外,現(xiàn)有的模型庫雖然能夠糾正一些錯誤推理,并對智能體的策略加以引導(dǎo),但距離自主、有效和科學(xué)的推理仍有不小差距。
3)基于大腦分區(qū)構(gòu)建協(xié)作型神經(jīng)網(wǎng)絡(luò)架構(gòu)。異步AC算法中的多線程模式展示的高效性無疑應(yīng)該引起更多關(guān)注,而在人的大腦中存在多個不同分區(qū),每個分區(qū)指導(dǎo)人的不同行為,多個分區(qū)的團(tuán)隊(duì)協(xié)作使得人能夠完成多種復(fù)雜行為。因此,可以通過引入上述思想,將復(fù)雜問題分解為不同類型的子問題,以特定的神經(jīng)網(wǎng)絡(luò)解決特定的子問題,該思想可使算法能夠解決較復(fù)雜的軍事博弈對抗問題。
4 結(jié)束語
智能博弈對抗算法的優(yōu)勢集中體現(xiàn)在建模和計算上,通過對智能博弈對抗問題的博弈建模,并依托博弈強(qiáng)化學(xué)習(xí)算法進(jìn)行求解,有助于發(fā)現(xiàn)問題的本質(zhì),探索出新的戰(zhàn)法。博弈和對抗是普遍的,不僅存在于情報領(lǐng)域,在軍事領(lǐng)域的諸多方面均有不同程度的體現(xiàn),故智能博弈對抗可廣泛運(yùn)用到多個軍事領(lǐng)域,支撐輔助決策,提升戰(zhàn)斗力。
參考文獻(xiàn):
[1]
SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550(7 676): 354-359.
[2] FANG F, LIU S, BASAK A, et al. Introduction to game theory[J]. Game Theory and Machine Learning for Cyber Security, 2021, 12(8): 21-46.
[3] 梁春華. 大數(shù)據(jù)與人工智能環(huán)境下“一主三輔” 情報研究工作模式研究[J]. 情報理論與實(shí)踐, 2021, 44(9): 64-67, 63.
LIANG C H. “One domain and three aid” intelligence analysis model at big-data and artificial intelligence environment[J]. Information Studies(Theory & Application), 2021, 44(9): 64-67, 63.
[4] 儲節(jié)旺, 李振延, 吳蓉. 面向科技自立自強(qiáng)的情報保障體系研究[J]. 情報理論與實(shí)踐, 2022, 45(8): 15-22, 53.
CHU J W, LI Z Y, WU R. Study of intelligence assurance system for China’s self-reliance in science and technology[J]. Information Studies(Theory & Application), 2022, 45(8): 15-22, 53.
[5] 袁建霞, 冷伏海, 黃龍光, 等. 科技前沿方向的情報監(jiān)測分析與綜合研判方法探討[J]. 圖書情報工作, 2022, 66(19): 92-98.
YUAN J X, LENG F H, HUANG L G, et al. Exploration of intelligence monitoring, analysis and comprehensive study and judgment methods for S & T frontier direction[J]. Library and Information Service, 2022, 66(19): 92-98.
[6] KASSAY G, RADULESCU V D. Equilibrium problems and applications[M].Pittsburgh:Academic Press,2014.
[7] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. 2nd ed.Massachusetts:MIT Press,1998.
[8] 周志華. 機(jī)器學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2016.
ZHOU Z H. Machine learning[M]. Beijing: Tsinghua University Press, 2016.
[9] ZHU Y H, ZHAO D B. Online minimax Q network learning for two-player zero-sum Markov games[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(3): 1228-1241.
[10]SCHMID M, BURCH N, LANCTOT M, et al. Variance reduction in Monte Carlo counterfactual regret minimization (VR-MCCFR) for extensive form games using baselines[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 2 157-2 164.
[11]FOERSTER J, FARQUHAR G, AFOURAS T, et al. Counterfactual multi-Agent policy gradients[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1):1 585-1 602.
[12]O SEBBOUH, M CUTURI, G PEYR. Randomized stochastic gradient descent ascent[C]//International Conference on Artificial Intelligence and Statistics, Virtual Conference, 2022: 2 941-2 969.
[13]BROWN N, BAKHTIN A, LERER A, et al. Combining deep reinforcement learning and search for imperfect-information games[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, 2020: 17 057-17 069.
[14]SˇUSTR M, SCHMID M, MORAV
CˇK M, et al. Sound algorithms in imperfect information games[EB/OL]. 2020: 2006.08740.http://arxiv.org/abs/2006.08740v2
[15]LITTMAN M. Friend-or-foe Q-learning in general-sum games[J]. ICML, 2001, 1(6): 322-328.
[16]HU J L, WELLMAN M P. Nash Q-learning for general-sum stochastic games[J]. Journal of Machine Learning Research, 2004, 4(6): 1 039-1 069.
[17]MA H, PU Z, PAN Y, et al. Causal mean field multi-agent reinforcement learning[EB/OL]. 2018.1802.05438.http://arxiv.org/abs/1802.05438v5,2018.
[18]TUYLS K, PROLAT J, LANCTOT M, et al. Symmetric decomposition of asymmetric games[J]. Scientific Reports, 2018, 8(1): 1 015.
[19]MISHRA B, AGGARWAL A. Opponent hand estimation in gin rummy using deep neural networks and heuristic strategies[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(17): 15 607-15 613.
[20]FOERSTER J N, CHEN R Y, AL-SHEDIVAT M, et al. Learning with opponent-learning awareness[EB/OL]. arXiv preprint arXiv:1709.04326, 2017.
[21]王軍, 曹雷, 陳希亮, 等. 多智能體博弈強(qiáng)化學(xué)習(xí)研究綜述[J]. 計算機(jī)工程與應(yīng)用, 2021, 57(21): 1-13.
WANG J, CAO L, CHEN X L, et al. Overview on reinforcement learning of multi-agent game[J]. Computer Engineering and Applications, 2021, 57(21): 1-13.
[22]CHIU C Y, FRIDOVICH-KEIL D, TOMLIN C J. Encoding defensive driving as a dynamic Nash game[C]//2021 IEEE International Conference on Robotics and Automation (ICRA). Xi’an, 2021: 10 749-10 756.
[23]BOGACHEV V I, SMOLYANOV O G. Real and Functional Analysis[M]. Cham: Springer International Publishing, 2020.
[24]N BROWN. Equilibrium finding for large adversarial im-perfect-information games[D]. US Army, 2020.
[25]WANG J, CAO L, WANG B, et al. Overview of one-dimensional continuous functions with fractional integral and applications in reinforcement learning[J]. Fractal and Fractional, 2022, 6(2): 69.
(責(zé)任編輯:張培培)