• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    智能博弈對(duì)抗中的對(duì)手建模方法及其應(yīng)用綜述

    2022-05-15 06:34:44魏婷婷袁唯淋羅俊仁張萬鵬
    關(guān)鍵詞:撲克建模智能

    魏婷婷,袁唯淋,羅俊仁,張萬鵬

    國防科技大學(xué) 智能科學(xué)學(xué)院,長沙410073

    近年來,人工智能技術(shù)的進(jìn)步引領(lǐng)智能博弈對(duì)抗領(lǐng)域飛速發(fā)展。2017年,AlphaGo戰(zhàn)勝人類頂級(jí)選手[1],標(biāo)志著人工智能在完全信息下的博弈對(duì)抗學(xué)習(xí)中取得了成功,圍棋這一難題被徹底攻破。隨后,研究人員將目光轉(zhuǎn)向了不完全信息下的大規(guī)模博弈對(duì)抗,2019年,由Facebook 人工智能實(shí)驗(yàn)室和卡耐基梅隆大學(xué)共同研發(fā)的撲克AI 程序Pluribus 在六人無限注德州撲克比賽中擊敗了全球頂尖職業(yè)選手[2]。2019 年10 月,DeepMind使用多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)方法訓(xùn)練的AlphaStar在星際爭霸Ⅱ中取得大師級(jí)水平[3],成果發(fā)表在Nature雜志上,智能博弈對(duì)抗研究進(jìn)展如圖1 所示。智能博弈對(duì)抗技術(shù)在國土安全和軍事指揮與控制領(lǐng)域都扮演著重要的角色。從民事應(yīng)用來看,智能博弈對(duì)抗技術(shù)的應(yīng)用范圍廣泛,涵蓋了軍事規(guī)劃與指揮、反恐與國土安全、信息安全、即時(shí)策略游戲(real-time strategy,RTS)等實(shí)際問題。在軍事指揮與控制領(lǐng)域攻防對(duì)抗中,隨著博弈對(duì)抗規(guī)模的擴(kuò)大,對(duì)抗空間呈現(xiàn)指數(shù)級(jí)增長,多方協(xié)同與環(huán)境耦合的問題凸顯,戰(zhàn)爭系統(tǒng)具有強(qiáng)非線性和高動(dòng)態(tài)等復(fù)雜特性,解析計(jì)算和隨機(jī)逼近最佳策略都存在巨大挑戰(zhàn),智能博弈對(duì)抗的策略學(xué)習(xí)需要著力研究對(duì)手行為建模和協(xié)同演化策略學(xué)習(xí)方法,以不斷提升對(duì)抗能力。

    圖1 智能博弈對(duì)抗研究進(jìn)展Fig.1 Progress of intelligent game confrontation research

    對(duì)手建模研究在過去二十年取得了重大進(jìn)展,是指在對(duì)抗環(huán)境下,考慮如何對(duì)除自己以外其他智能體進(jìn)行行為建模,是一種典型的行為預(yù)測技術(shù)[4]。智能博弈對(duì)抗策略學(xué)習(xí)的許多相關(guān)研究都關(guān)注于開發(fā)能夠與其他智能體有效交互的自主智能體,對(duì)手建模作為其中最重要的方法之一,通過構(gòu)建模型來分析或預(yù)測交互環(huán)境中其他智能體的各種值得關(guān)注的屬性(如行動(dòng)、目標(biāo)、策略類型),進(jìn)而推理它們的行為。目前不同研究領(lǐng)域存在著各種建模方法,它們的基本假設(shè)均不相同,以滿足其各自實(shí)際應(yīng)用中的需要。在攻防對(duì)抗場景中,由于環(huán)境是部分可觀測的,博弈中存在諸多的不確定性,通過對(duì)對(duì)手進(jìn)行建模,識(shí)別其意圖并加以利用,可以更有效地輔助決策。在多智能體系統(tǒng)(multi-agent system,MAS)中,通過對(duì)智能體建模,可以推測智能體動(dòng)作、目標(biāo)、策略等相關(guān)屬性,為輔助決策提供關(guān)鍵信息。在軍事應(yīng)用中,指揮控制命令的生成必須以敵我雙方的作戰(zhàn)態(tài)勢為依據(jù),因此建立一個(gè)準(zhǔn)確的敵方行為預(yù)測模型對(duì)于分析其意圖尤其重要,基于此,己方才能最大限度地達(dá)到軍事目的,以限制或操縱敵方。

    對(duì)手建模的研究已經(jīng)逐步從理論落地到實(shí)際應(yīng)用。2004年,DARPA啟動(dòng)的實(shí)時(shí)對(duì)抗智能決策項(xiàng)目(real-time adversarial intelligence and decision-making,RAID),旨在根據(jù)當(dāng)前可用的信息估算未來戰(zhàn)爭態(tài)勢。2017 年,DARPA提出了馬賽克作戰(zhàn)概念[5],期望運(yùn)用智能技術(shù)來提升決策的快速性和有效性,通過對(duì)手建模,分析敵方策略,采用相應(yīng)措施干擾敵方并增加敵方?jīng)Q策復(fù)雜度。2019 年,美國國防高級(jí)研究計(jì)劃局(DARPA)的空戰(zhàn)演進(jìn)計(jì)劃(air combat evolution,ACE)開始著手將AI飛行員由虛擬仿真推向?qū)崣C(jī)對(duì)抗[6]。對(duì)手建模在競技類游戲和軍事仿真推演等領(lǐng)域的應(yīng)用前景廣闊,因此研究對(duì)手模型建立與利用具有重要意義。

    1 對(duì)手建模內(nèi)涵

    對(duì)手建模研究由來已久,最早在博弈論框架下進(jìn)行相關(guān)研究,是博弈論范式下的子課題,許多對(duì)手建模的方法受到博弈理論的啟發(fā)而提出。博弈論是在現(xiàn)實(shí)世界競爭中人類行為模式的基石,研究理性參與者決策的相互作用及其均衡問題,使得個(gè)體通過競爭與合作實(shí)現(xiàn)自身利益最大化。在博弈論中,納什均衡[7]是博弈的最優(yōu)解,可利用性衡量的是一個(gè)策略與納什均衡策略之間的距離,其大小表征了納什策略可利用性的強(qiáng)弱。對(duì)手建模以可觀測的歷史數(shù)據(jù)作為輸入,最終得到關(guān)于智能體某些屬性的預(yù)測,如圖2所示。

    圖2 對(duì)手建模過程Fig.2 Process of opponent modeling

    建立對(duì)手模型的目的是智能體能夠適應(yīng)對(duì)手并利用其弱點(diǎn)來提高智能體的決策能力,即使已知均衡解,利用準(zhǔn)確的對(duì)手模型仍有可能獲得更高的獎(jiǎng)勵(lì)。為了易于處理問題,對(duì)手建模研究通常假設(shè)對(duì)手遵循固定的策略,與平穩(wěn)假設(shè)相反的策略稱為非平穩(wěn)策略。Albrecht等人從總體上歸納了對(duì)手建模方法[8],主要分為以下幾類:策略重構(gòu)[9-10],即建立模型對(duì)對(duì)手的行動(dòng)做出明確的預(yù)測來重建對(duì)手的決策過程;基于類型的推理[11],假設(shè)對(duì)手有幾種已知類型中的一種,并使用在實(shí)時(shí)交互過程中獲得的新觀察來更新信念;分類方法[12],模型將類別標(biāo)簽(例如,“攻擊性”或“防御性”)分配給對(duì)手,并采用對(duì)該特定類別的對(duì)手有效的預(yù)計(jì)算策略;規(guī)劃行動(dòng)意圖識(shí)別[13],使用層次化規(guī)劃庫或域理論,預(yù)測智能體的目標(biāo)和可能行為;遞歸推理[14-15],對(duì)嵌套信念進(jìn)行建模(例如,“我相信你相信我相信……”)并模擬對(duì)手的推理過程來預(yù)測他們的行動(dòng),遞歸持續(xù)推理其他智能體的可能模型并預(yù)測其可能行為,但是往往遞歸層次難以分析,理性假設(shè)太強(qiáng)。

    由于非平穩(wěn)環(huán)境下的博弈對(duì)抗愈演愈烈,平穩(wěn)假設(shè)會(huì)嚴(yán)重限制系統(tǒng)的適用性和準(zhǔn)確性,迫切地需要對(duì)動(dòng)態(tài)的對(duì)手策略進(jìn)行建模,以此為基礎(chǔ)進(jìn)行反制策略的研究。本文旨在從非平穩(wěn)角度出發(fā),對(duì)現(xiàn)有的對(duì)手建模方法及其應(yīng)用進(jìn)行總結(jié)歸納。

    1.1 面臨的挑戰(zhàn)

    通常情況下,博弈對(duì)抗中的智能體被認(rèn)為是完全理性的,但在撲克、星際爭霸等不完美信息動(dòng)態(tài)博弈對(duì)抗中,智能體所處的環(huán)境是部分可觀測的,人類參與者往往具有有限理性,無法做出最佳的策略。決策任務(wù)中對(duì)手策略的不固定性帶來的非平穩(wěn)問題一直是博弈論、強(qiáng)化學(xué)習(xí)等領(lǐng)域研究的熱點(diǎn),現(xiàn)有的方法大多數(shù)是通過學(xué)習(xí)其他智能體的模型來預(yù)測它們的行為,從而消除非平穩(wěn)行為。

    根據(jù)智能體所處環(huán)境特性的不同,進(jìn)行對(duì)手建模時(shí)所考慮的條件以及建模的方式往往也不同?,F(xiàn)有的一些研究工作往往將其他智能體看作是環(huán)境的一部分,不考慮由智能體主體參與引起的非平穩(wěn),忽略其他智能體的影響,優(yōu)化策略的同時(shí)假設(shè)了一個(gè)平穩(wěn)的環(huán)境,將非平穩(wěn)問題視為隨機(jī)波動(dòng)進(jìn)行處理。當(dāng)對(duì)手策略固定的情況下,將對(duì)手也視為平穩(wěn)環(huán)境的一部分是一種有效簡化方法,然而,在對(duì)手策略是學(xué)習(xí)型緩慢變化或動(dòng)態(tài)切換變化時(shí),需要充分考慮環(huán)境的非平穩(wěn)性。在多智能體場景下,將智能體視為非平穩(wěn)環(huán)境的一部分并不合理,因此,考慮環(huán)境的非平穩(wěn)性,針對(duì)能夠自主學(xué)習(xí)的對(duì)手,有必要進(jìn)行對(duì)手建模,以預(yù)測對(duì)手的行為和評(píng)估對(duì)手的能力。

    從環(huán)境可觀測性和對(duì)手行為變化程度兩個(gè)維度對(duì)對(duì)手建模方法進(jìn)行分析,目前應(yīng)對(duì)“對(duì)手”的主要方法分為五類[16]:忽略(ignore)、遺忘(forget)、目標(biāo)對(duì)手最佳反應(yīng)(respond to target models)、學(xué)習(xí)對(duì)手模型(learn models)和心智理論(theory of mind,ToM)。博弈對(duì)抗環(huán)境根據(jù)可觀測性按遞增順序分為四類:局部獎(jiǎng)勵(lì)、對(duì)手動(dòng)作、對(duì)手動(dòng)作與獎(jiǎng)勵(lì)、完整先驗(yàn)知識(shí)。環(huán)境的部分可觀察性對(duì)于智能體學(xué)習(xí)帶來了很大的不確定性,如存在欺騙利用的環(huán)境中,有些獎(jiǎng)勵(lì)可能是虛假的。此外,在對(duì)抗交互中,對(duì)手也在不斷地適應(yīng)和學(xué)習(xí),因此對(duì)手改變其行為的能力也是一個(gè)重要的考慮方面,按其行為變化劇烈程度由低到高分為:固定策略(no adaptation)、緩慢改變(slow adaptation)、劇烈變化(drastic or abrupt adaptation)。不同的方法均對(duì)對(duì)手做了類似的假設(shè),有些方法假設(shè)對(duì)手策略固定,那么在非平穩(wěn)環(huán)境無法適用。由環(huán)境可觀測性、對(duì)手行為變化程度和智能體應(yīng)對(duì)變化的能力組成的博弈對(duì)抗空間復(fù)雜性如圖3所示。

    圖3 博弈對(duì)抗空間復(fù)雜性Fig.3 Complexity of game confrontation space

    1.2 建模方式分類

    目前的大部分研究將對(duì)手建模方法分為隱式建模和顯式建模[17],具體建模過程及區(qū)別如圖4所示。

    圖4 顯式對(duì)手建模與隱式對(duì)手建模Fig.4 Explicit and implicit opponent modeling

    顯式建模通常直接根據(jù)觀測到的對(duì)手歷史行為數(shù)據(jù)進(jìn)行推理優(yōu)化,通過模型擬合對(duì)手行為策略,掌握對(duì)手意圖,降低對(duì)手信息缺失帶來的影響,并且對(duì)其他方法的適配兼容效果更好。隱式建模則直接將對(duì)手信息作為自身博弈模型的一部分處理對(duì)手信息缺失的問題,通過最大化智能體期望回報(bào)的方式將對(duì)手的決策行為隱式引進(jìn)自身模型,構(gòu)成隱式建模方法。顯式模型提供了一種直接的方式來表示智能體的行為,但在沒有一定的先驗(yàn)知識(shí)的情況下,建立精確的模型需要大量的樣本。對(duì)于不完美信息領(lǐng)域,由于對(duì)手信息的缺乏,使得顯式建模難以實(shí)現(xiàn)。隱式建模則是編碼智能體某些方面的行為特征,而不做出明確的預(yù)測。

    2 對(duì)手建模方法

    隨著深度神經(jīng)網(wǎng)絡(luò)的興起,對(duì)手建模研究結(jié)合諸多領(lǐng)域,涌現(xiàn)出很多前沿的多智能體對(duì)手建模方法。本文基于現(xiàn)有的研究,將一些前沿的對(duì)手建模方法做如下分類:(1)基于策略表征的學(xué)習(xí)方法。由于深度學(xué)習(xí)技術(shù)的成熟使得網(wǎng)絡(luò)表征能力變強(qiáng),許多研究使用深度強(qiáng)化學(xué)習(xí)預(yù)測對(duì)手行為策略,通過正則化的方法提高泛化能力,使用元學(xué)習(xí)的手段在少量交互的條件下快速適應(yīng)對(duì)手。(2)基于認(rèn)知建模的推理方法。心智理論是現(xiàn)實(shí)生活中人類進(jìn)行交互的認(rèn)知理論科學(xué),在人對(duì)抗交互中,對(duì)抗雙方都會(huì)對(duì)對(duì)方行為模型產(chǎn)生認(rèn)知,研究者開發(fā)了機(jī)器心智理論;在有限理性研究中,基于層次理論賦予智能體K級(jí)推理能力;在對(duì)手具有信念的前提下,通過遞歸推理的方法應(yīng)對(duì)對(duì)手。(3)基于貝葉斯的優(yōu)化方法。貝葉斯推理為對(duì)手建模與利用提供了理論基礎(chǔ),已知對(duì)手策略先驗(yàn)分布和對(duì)弈觀察的情況下,貝葉斯推理可以得到對(duì)手策略空間的后驗(yàn)分布,進(jìn)而推斷后驗(yàn)策略并加以利用。對(duì)手建模方法層次與典型的前沿對(duì)手建模方法分別如圖5和表1[18-34]所示,以下分別進(jìn)行詳細(xì)介紹。

    表1 典型前沿對(duì)手建模方法Table 1 Typical cutting-edge opponent modeling methods

    圖5 對(duì)手建模方法層次Fig.5 Hierarchy of opponent modeling methods

    2.1 基于策略表征的學(xué)習(xí)方法

    2.1.1 基于深度強(qiáng)化學(xué)習(xí)的方法

    對(duì)手建模的兩個(gè)關(guān)鍵問題是選擇對(duì)手特征參數(shù)進(jìn)行建模以及如何使用這些預(yù)測信息,深度學(xué)習(xí)由于具有強(qiáng)大表征能力,結(jié)合博弈論、認(rèn)知心理學(xué),涌現(xiàn)出許多優(yōu)異的對(duì)手建模方法,并且解決了研究領(lǐng)域諸多問題?;谏疃葘W(xué)習(xí)的方法[35]解決了依賴專家知識(shí)人工提取特征的問題,通過擬合能夠?qū)W習(xí)到高度靈活的模型,可以達(dá)到自動(dòng)執(zhí)行認(rèn)知建模的目的,以此來預(yù)測人類的行為。一種深度強(qiáng)化學(xué)習(xí)對(duì)手網(wǎng)絡(luò)方法(deep reinforcement opponent network,DRON)[18]在DQN(deep Q-network)[19]的基礎(chǔ)上提出,包含一個(gè)預(yù)測Q值的策略學(xué)習(xí)模塊和一個(gè)推斷對(duì)手策略的對(duì)手學(xué)習(xí)模塊,根據(jù)過去的觀察隱式地預(yù)測對(duì)手的屬性,在此基礎(chǔ)上還使用了混合專家網(wǎng)絡(luò)改進(jìn)Q 值估計(jì)的方法。DRON 將神經(jīng)網(wǎng)絡(luò)應(yīng)用于對(duì)手建模,結(jié)合強(qiáng)化學(xué)習(xí)以解決更復(fù)雜的決策問題,其能夠處理不完全信息博弈問題,但需要建立在大量的歷史數(shù)據(jù)基礎(chǔ)之上。深度策略推理方法(deep policy inference Q-network,DPIQN)和引入LSTM[36]循環(huán)神經(jīng)網(wǎng)絡(luò)的深度循環(huán)策略推理方法(deep recurrent policy inference Q-network,DPIRQN)[20]通過制定輔助手段來額外學(xué)習(xí)這些策略特征,直接從其他智能體的原始觀察中進(jìn)行學(xué)習(xí),無需像DRON一樣采用手工特征(handcrafted features),即人工選取的特征。

    2.1.2 基于正則化強(qiáng)化學(xué)習(xí)的方法

    神經(jīng)網(wǎng)絡(luò)的擬合能力非常強(qiáng),但是也容易造成過擬合,在測試集上的錯(cuò)誤率會(huì)很高。正則化(regularization)是一類通過限制模型復(fù)雜度,從而避免過擬合,提高泛化能力的方法,包括引入一些約束規(guī)則、增加先驗(yàn)、提前停止等。一種正則化最大熵目標(biāo)對(duì)手模型(regularized opponent model with maximum entropy objective,ROMMEO)[22]將MARL形式化為概率推理問題,通過引入相關(guān)項(xiàng)(記為ρ)可以防止建立的對(duì)手模型偏離實(shí)際,用對(duì)手模型和先驗(yàn)之間的KL(Kullback-Leibler)散度作為ρ的正則化器,通過設(shè)定對(duì)手過往行為的先驗(yàn)經(jīng)驗(yàn)分布,對(duì)偏離經(jīng)驗(yàn)分布的情況,KL散度將對(duì)ρ做出嚴(yán)重懲罰(由于方程中的目標(biāo)可以看作是一個(gè)智能體的策略和對(duì)對(duì)手模型進(jìn)行正則化的最大熵目標(biāo),此目標(biāo)稱為正則化最大熵目標(biāo)對(duì)手模型),雖然ROMMEO 實(shí)現(xiàn)了理論上的推導(dǎo),但其驗(yàn)證場景為完美信息博弈,對(duì)于實(shí)際的不完美信息博弈問題的求解效果未知。

    2.1.3 基于元學(xué)習(xí)的方法

    元學(xué)習(xí)(meta-learning或learning-to-learn)[37]是機(jī)器學(xué)習(xí)領(lǐng)域的新趨勢,它利用訓(xùn)練階段的經(jīng)驗(yàn)來學(xué)習(xí)如何學(xué)習(xí),獲得對(duì)新環(huán)境或新任務(wù)進(jìn)行概括的能力,元學(xué)習(xí)在對(duì)手建模中的應(yīng)用也有一些初步的研究成果。來自卡耐基梅隆大學(xué)和OpenAI的研究團(tuán)隊(duì)提出策略動(dòng)態(tài)自適應(yīng)的方法[23]使用元學(xué)習(xí)算法MAML[38]來處理多智能體交互中的非平穩(wěn)問題,研究如何在非平穩(wěn)環(huán)境中,快速學(xué)習(xí)到相應(yīng)的策略,該方法將非平穩(wěn)環(huán)境視為一系列靜態(tài)任務(wù),訓(xùn)練智能體利用連續(xù)任務(wù)之間的依賴關(guān)系,但僅在少數(shù)對(duì)抗環(huán)境中取得了比基準(zhǔn)算法性能好的效果。雖然多數(shù)結(jié)合元學(xué)習(xí)的方法訓(xùn)練效果一般,但作為一種新的對(duì)手建模求解思路,其建模方法本質(zhì)是學(xué)會(huì)對(duì)手學(xué)習(xí),進(jìn)而求解最佳響應(yīng)。對(duì)手建模問題本質(zhì)上是跟誰打(who to battle)和怎么打(how to battle)的問題,對(duì)手利用框架(learning to exploit,L2E)[24]通過元學(xué)習(xí)的方法進(jìn)行隱式對(duì)手建模,提出了一個(gè)多樣性正則化的策略生成算法,可以自動(dòng)產(chǎn)生難被利用的(hard-to-exploit)和多樣化(diverse)的對(duì)手,提高了算法的魯棒性和泛化能力,但其對(duì)最初生成的智能體性能要求較高。

    2.2 基于認(rèn)知建模的推理方法

    2.2.1 基于心智理論的方法

    博弈論無法解釋有限理性人的博弈決策行為,研究者借鑒人類心智理論,進(jìn)行了機(jī)器心智理論的相關(guān)探索。心智理論是腦神經(jīng)科學(xué)與認(rèn)知科學(xué)領(lǐng)域中面向信息交互的認(rèn)知行為理論,是認(rèn)知推理智能的主要表現(xiàn)形式。認(rèn)知科學(xué)領(lǐng)域的許多研究表明,人類經(jīng)常利用這種能力來理解和預(yù)測他人的行為,甚至通過遞歸地推理他人如何使用這種能力理解自己的行為,進(jìn)而演化出更高階的心智理論。相關(guān)研究工作已經(jīng)表明,借鑒人類心智理論模型開發(fā)多智能體系統(tǒng)不僅可以提升AI的推理和決策能力層級(jí),還有望改進(jìn)當(dāng)前人工智能領(lǐng)域存在不可解釋性的重要缺陷。DeepMind的研究人員提出了心智理論神經(jīng)網(wǎng)絡(luò)(theory of mind neural network,ToMnet)[25]方法,使用元學(xué)習(xí)的方法構(gòu)建了一個(gè)強(qiáng)大的先驗(yàn)?zāi)P?,來提高?duì)對(duì)手未來行為的預(yù)測,智能體具備思考和判斷的能力,能產(chǎn)生對(duì)手信念并對(duì)其進(jìn)行判斷,提高了AI的可解釋性。在一些游戲中,研究人員證明了一階和二階心智理論具有實(shí)質(zhì)性的作用,而高階心智理論卻具有較低的投資回報(bào)率[39-40]。

    2.2.2 基于認(rèn)知層次的方法

    智能體能產(chǎn)生對(duì)手信念,反之對(duì)手也能產(chǎn)生對(duì)智能體的信念,從而出現(xiàn)了信念嵌套。認(rèn)知層次(cognitive hierarchy,CH)[41]模型無需求解博弈中的納什均衡,增強(qiáng)了可解釋性的同時(shí),實(shí)現(xiàn)了對(duì)手建模算法從“感知”到“認(rèn)知”的過渡。認(rèn)知層次模型指出參與者具有思考步數(shù),K步思考能力即認(rèn)知層次為K,其大小代表了認(rèn)知層次的高低,K級(jí)智能體可以推理得到低于K級(jí)的對(duì)手的推理邏輯和策略分布,并且可以對(duì)所有低于K級(jí)認(rèn)知層次的對(duì)手做出最優(yōu)反應(yīng)。雖然理論上CH可以對(duì)低于自身層次的任何對(duì)手做出響應(yīng),但如何針對(duì)對(duì)手策略進(jìn)行更加準(zhǔn)確地預(yù)測以及迭代步數(shù)的選擇仍需繼續(xù)探索。Level-K迭代推理模型[26]賦予了智能體K級(jí)推理能力,對(duì)對(duì)手的行為預(yù)測的基礎(chǔ)上進(jìn)行K輪的迭代推理,與認(rèn)知層次的區(qū)別在于K級(jí)的智能體對(duì)K-1 級(jí)做出最佳響應(yīng),針對(duì)對(duì)手層次的假設(shè)也直接限制了智能體對(duì)其他層次對(duì)手的響應(yīng)能力。

    2.2.3 基于遞歸推理的方法

    遞歸推理表示了一種認(rèn)知層次的高低,將遞歸推理應(yīng)用于對(duì)手建模研究有助于建立具備推理對(duì)手行為、目標(biāo)和信念的智能體。UCL的研究團(tuán)隊(duì)提出了MARL的概率遞歸推理(probabilistic recursive reasoning,PR2)[27]框架,首次將遞歸推理引入MARL 決策中,是對(duì)手建模的一個(gè)新的思路。傳統(tǒng)的對(duì)手建模方法可以被看作是0級(jí)遞歸推理,由于對(duì)對(duì)手更高級(jí)別的策略響應(yīng)都要建立在0 級(jí)對(duì)手的基礎(chǔ)之上,因此0 級(jí)對(duì)手的選取是進(jìn)行迭代推理、預(yù)測智能體行為的基礎(chǔ)模型,該模型直接影響更高層次的智能體的性能。Level-0 迭代模型[42]利用博弈領(lǐng)域的知識(shí)進(jìn)行特征的選取,為0級(jí)對(duì)手提供了一種可靠的描述方式,針對(duì)具體的模型,需要調(diào)整相關(guān)特征權(quán)重以避免過擬合,防止預(yù)測性能降低。

    對(duì)手意識(shí)(opponent awareness)在一些研究中被用來表征對(duì)對(duì)手的認(rèn)知建模,本質(zhì)上是采用相關(guān)理論對(duì)策略梯度進(jìn)行推導(dǎo)求解。對(duì)手學(xué)習(xí)意識(shí)的學(xué)習(xí)(learning with opponent-learning awareness,LOLA)[28]則通過引入新的學(xué)習(xí)規(guī)則對(duì)對(duì)手策略參數(shù)更新進(jìn)行預(yù)測,并對(duì)預(yù)測的行為做出最佳相應(yīng),通過對(duì)對(duì)手狀態(tài)-動(dòng)作軌跡的觀察采用最大似然估計(jì)以求得對(duì)手策略參數(shù)的估計(jì)值,對(duì)手建模技術(shù)的引入解決了對(duì)抗環(huán)境下對(duì)手策略參數(shù)未知的問題,但對(duì)于風(fēng)格復(fù)雜多變的對(duì)手,往往應(yīng)對(duì)困難。倫敦大學(xué)學(xué)院(University College London,UCL)的研究團(tuán)隊(duì)使用RL2[43]提出學(xué)會(huì)對(duì)手學(xué)習(xí)方法(LeMOL)[29]采取多智能體強(qiáng)化學(xué)習(xí)的框架,使用對(duì)手模型彌補(bǔ)了分散式訓(xùn)練中無法訪問其他智能體策略的缺點(diǎn),同基線算法集中式MADDPG[44]相比,性能有一定提升。

    2.3 基于貝葉斯的優(yōu)化方法

    由于現(xiàn)實(shí)博弈中納什均衡的難計(jì)算、對(duì)手風(fēng)格多變以及對(duì)手弱點(diǎn)可利用的特點(diǎn),需要為其建立魯棒性高的方法,貝葉斯推理為對(duì)手建模與利用提供了很好的理論基礎(chǔ)。在給定先驗(yàn)分布和對(duì)弈觀察的情況下,根據(jù)貝葉斯推理可以得到對(duì)手策略空間的后驗(yàn)分布推斷對(duì)手的后驗(yàn)策略,用β表示對(duì)手的行為策略,給定一個(gè)O=Os∪Of的觀察集,其中Os是導(dǎo)致攤牌的回合的觀察集,Of是導(dǎo)致折疊棄牌的回合的觀察集,Hs和Hf分別表示攤牌和棄牌的情況,根據(jù)貝葉斯規(guī)則可以得到:

    貝葉斯方法的建模效果與先驗(yàn)知識(shí)有關(guān),對(duì)于更難對(duì)付的對(duì)手,如果有更加完備的先驗(yàn)知識(shí),對(duì)抗效果將更好。在得到對(duì)手行為策略分布之后,如何進(jìn)行決策響應(yīng)也是一個(gè)關(guān)鍵的環(huán)節(jié),一種基于貝葉斯概率的模型[30],將博弈動(dòng)態(tài)不確定性與對(duì)手策略的不確定性分離開來,使用貝葉斯最佳響應(yīng)(Bayesian best response,BBR)、最大后驗(yàn)響應(yīng)(max a posteriori response,MAP)和湯普森響應(yīng)(Thompson’s response)3種應(yīng)對(duì)策略,其平均收益和平均勝率均不低于納什策略和當(dāng)時(shí)先進(jìn)的對(duì)手建模技術(shù),并且能夠在短時(shí)間內(nèi)快速適應(yīng)對(duì)手并加以利用。深度貝葉斯策略重用(deep Bayesian policy reuse,deep BPR+)[32]在BPR+[34]上面增加了一個(gè)對(duì)手建模網(wǎng)絡(luò),同時(shí)結(jié)合策略蒸餾[45]的方法,算法包含策略重用和新策略學(xué)習(xí)兩個(gè)階段,提高了學(xué)習(xí)新策略的效率和對(duì)對(duì)手策略判斷的準(zhǔn)確性。基于模型的對(duì)手建模MBOM[33]將想象的對(duì)手策略與真實(shí)的對(duì)手進(jìn)行相似性比較,將多種策略進(jìn)行混合,以求得對(duì)手的最佳響應(yīng),該方法結(jié)合遞歸推理與貝葉斯推理來預(yù)測對(duì)手的學(xué)習(xí),在競爭和合作環(huán)境中,MBOM對(duì)于固定策略、持續(xù)學(xué)習(xí)和具有推理能力的對(duì)手都有很好的適應(yīng)能力。

    3 對(duì)手建模方法典型應(yīng)用分析

    對(duì)手模型的建立對(duì)于處理復(fù)雜情況下的博弈對(duì)抗來說是非常必要的(如電子游戲、撲克等),是利用次優(yōu)對(duì)手的關(guān)鍵。本章介紹序貫博弈對(duì)抗(德州撲克)、即時(shí)策略博弈對(duì)抗(星際爭霸)和元博弈中對(duì)手建模方法的具體應(yīng)用。

    3.1 序貫策略博弈

    在德州撲克的機(jī)器博弈中,對(duì)手建??梢杂行гu(píng)估對(duì)手策略、找出對(duì)手弱點(diǎn),利用對(duì)手的弱點(diǎn)往往能取得比納什均衡策略更高的收益。與圍棋不同,撲克由于對(duì)手手牌信息的私有性導(dǎo)致牌局信息不完美可知,求解空間復(fù)雜,難以搜尋均衡解,隨著冷撲大師Libratus[46]和Pluribus先后在雙人無限撲克和多人無限撲克中戰(zhàn)勝人類頂級(jí)玩家,德州撲克已然被當(dāng)作大規(guī)模不完美信息動(dòng)態(tài)博弈的重要測試環(huán)境。對(duì)手建模是德州撲克智能博弈中一個(gè)重要的研究方向,與斗地主、麻將等計(jì)算機(jī)撲克相比,參與者的目的不止是贏,更是希望在比賽結(jié)束時(shí)從對(duì)手那里贏得盡可能多的籌碼,德州撲克中參與者采用的策略以及暴露出的弱點(diǎn)可以加以利用,因此建立一個(gè)清晰的模型來預(yù)測對(duì)手的行為尤為重要。

    在德州撲克中進(jìn)行對(duì)手建模,一般包括手牌范圍建模和行為習(xí)慣建模兩部分,首先要進(jìn)行對(duì)手策略類型及風(fēng)格類型分析與手牌評(píng)估,然后基于已有的樣本數(shù)據(jù)擬合最優(yōu)解。傳統(tǒng)的方法主要有策略偏向、決策樹、貝葉斯推理、神經(jīng)網(wǎng)絡(luò)、多智能體投票建模等方法[47-50]。對(duì)手建模結(jié)合深度學(xué)習(xí)技術(shù),與多領(lǐng)域知識(shí)融合,形成了以神經(jīng)演化算法[51]為代表的前沿技術(shù)。傳統(tǒng)的基于規(guī)則的方法大多依賴于專家知識(shí),結(jié)合深度學(xué)習(xí)的前沿對(duì)手建模技術(shù)可以在不具備相關(guān)領(lǐng)域知識(shí)的情況下取得不錯(cuò)的效果,擬合性能良好,但大多屬于隱式建模方法,模型可解釋性不足。

    3.1.1 特定對(duì)手最佳響應(yīng)

    在實(shí)際的博弈當(dāng)中,博弈過程中的博弈者的類型是多種多樣的,將博弈者的策略進(jìn)行抽象歸納是一種常用的方法[52]。在德州撲克游戲中,博弈過程中的博弈者類型可以分為以下5種,分別為進(jìn)攻型、常規(guī)型、防守型、嚇唬型以及狡詐型[53],每種類型都有其優(yōu)勢與劣勢。在實(shí)際的博弈當(dāng)中,在同一博弈狀態(tài)下,針對(duì)不同類型的博弈者可以做出不同策略,要做到這一點(diǎn),對(duì)于對(duì)手模型的建立就很有必要了,德州撲克中的對(duì)手建??蚣苋鐖D6所示。

    對(duì)手當(dāng)前策略的信念可以被編碼成一種策略,先驗(yàn)或者后驗(yàn)信念可以總結(jié)為一個(gè)函數(shù),該函數(shù)即為信息集到行動(dòng)的映射,即預(yù)期的對(duì)手策略。對(duì)手模型本身可以作為一種策略,也包含了對(duì)抗被對(duì)手利用的反制策略,這種反制策略的有效性在關(guān)于限制納什反應(yīng)的研究中得到了證明。然而在一些情況下,對(duì)手模型只是基于少量觀察樣本而構(gòu)建的,所以重點(diǎn)是研究如何與實(shí)際情況中的對(duì)手進(jìn)行對(duì)抗。限制性納什響應(yīng)反制策略(restricted Nash response,RNR)[54]是德州撲克中一種典型的對(duì)手建模的方法,可以在特定對(duì)手模型最佳策略和納什均衡之間找到具有魯棒性的反制策略,最大化利用對(duì)手的同時(shí)最小化損失。RNR通過選擇一個(gè)參數(shù)來表示整個(gè)對(duì)手模型的準(zhǔn)確度,并且存在過擬合、需要大量觀測以及對(duì)訓(xùn)練對(duì)手的選擇較為敏感的缺陷。數(shù)據(jù)偏差響應(yīng)(data biased responses,DBR)[55]方法通過對(duì)每個(gè)信息集賦予一個(gè)置信度,從而建立一個(gè)更為可靠的魯棒反制策略對(duì)手模型。

    3.1.2 神經(jīng)演化學(xué)習(xí)

    基于納什均衡的方法[56]在多智能體博弈領(lǐng)域取得了成功,但它們?nèi)狈τ行У慕:屠脤?duì)手的能力?;谘h(huán)神經(jīng)網(wǎng)絡(luò)LSTM 和模式識(shí)別樹(PRTs)的對(duì)手模型[51],通過進(jìn)化優(yōu)化構(gòu)建基于模式識(shí)別樹和LSTM神經(jīng)網(wǎng)絡(luò)的對(duì)手模型,然后將此類模型與決策方法集成,以建立能夠利用對(duì)手弱點(diǎn)以調(diào)整其行為的撲克智能體。通過這種方法,構(gòu)建了一個(gè)德州撲克自適應(yīng)系統(tǒng)(adaptive system of Hold’em,ASHE),包括RPT、LSTM 估計(jì)器和決策方法,方法的核心是對(duì)手模型,它包含PRT 和兩個(gè)LSTM估計(jì)器。RPT本質(zhì)上是一個(gè)特征提取器,收集對(duì)手在每一場游戲中的策略信息,從不同的博弈狀態(tài)中提取有用的統(tǒng)計(jì)特征,作為輸入傳給LSTM 估計(jì)器。LSTM估計(jì)器的精度決定了方法的性能,其將估計(jì)的攤牌勝率和對(duì)手棄牌率輸入到?jīng)Q策方法,該方法基于統(tǒng)計(jì)估計(jì)每個(gè)可能動(dòng)作的期望收益,并相應(yīng)地選擇最佳動(dòng)作。該撲克智能體可以適應(yīng)在訓(xùn)練中從未見過的對(duì)手,并且能夠有效地利用對(duì)手的弱點(diǎn),這種方法可以拓展到其他不完美信息博弈問題建模和利用弱的對(duì)手。

    3.1.3 策略集成學(xué)習(xí)

    集成學(xué)習(xí)(ensemble learning)[57]是指將多個(gè)分類器(可以為同質(zhì),也可以為異質(zhì))組合成一個(gè)比單個(gè)分類器更強(qiáng)大的系統(tǒng),即便某一個(gè)分類器得到了錯(cuò)誤的預(yù)測,其他的分類器也可以將錯(cuò)誤糾正回來,因此集成學(xué)習(xí)系統(tǒng)可以博采眾長,具有比單個(gè)分類器更高的預(yù)測性能以及更好的泛化能力。在德州撲克中,集成學(xué)習(xí)方法[58]在對(duì)手策略建模中的作用為將特征映射到?jīng)Q策,即用于發(fā)現(xiàn)它們之間的復(fù)雜關(guān)系。集成學(xué)習(xí)系統(tǒng)首先訓(xùn)練了幾個(gè)專家,每個(gè)專家針對(duì)一個(gè)特定的參與者進(jìn)行訓(xùn)練。通過隨機(jī)選擇所有參與者的專家并進(jìn)行交叉驗(yàn)證,對(duì)未知對(duì)手行為預(yù)測的準(zhǔn)確率比單個(gè)分類器的結(jié)果更高。因此,集成學(xué)習(xí)可以為基于已有異構(gòu)分類模型快速構(gòu)造通用的對(duì)手模型提供支撐,提高對(duì)未知對(duì)手的預(yù)測性能,提高模型泛化能力,對(duì)手建模集成學(xué)習(xí)框架如圖7所示。

    圖7 對(duì)手建模集成學(xué)習(xí)框架Fig.7 Framework of opponent modeling for ensemble learning

    不完美信息不確定性條件下,基于不同范式構(gòu)建的初級(jí)決策模型具有不同偏好,在模型精確性、安全性、魯棒性方面的各有優(yōu)缺點(diǎn)。多范式多目標(biāo)可解釋性策略集成方法的研究建立在構(gòu)建初級(jí)決策模型的基礎(chǔ)上,需要考慮如何在盡可能保留可解釋性決策依據(jù)的同時(shí),一方面提高決策收益,另一方面降低決策模型的對(duì)手可利用度。

    3.2 即時(shí)策略博弈

    在星際爭霸為代表的多智能體博弈對(duì)抗中,對(duì)手建模為智能體的開發(fā)提供了新的思路。即時(shí)策略博弈相較于棋類游戲更為復(fù)雜,狀態(tài)空間更大,決策時(shí)間要求更快,除了不完美信息帶來了很大的不確定性外,還要考慮動(dòng)作的連續(xù)性、多異構(gòu)智能體合作[59]等諸多問題。星際爭霸中涉及對(duì)手建模的算法主要包括經(jīng)典機(jī)器學(xué)習(xí)方法和虛擬對(duì)弈方法。經(jīng)典的機(jī)器學(xué)習(xí)方法通常需要大量的歷史交互數(shù)據(jù)進(jìn)行特征擬合,但高質(zhì)量的樣本數(shù)據(jù)往往稀缺,難以支撐復(fù)雜深層網(wǎng)絡(luò)的收斂需求;虛擬對(duì)弈是求解大規(guī)模不完美信息博弈的有效算法,在策略優(yōu)化過程中無需先驗(yàn)知識(shí),通過構(gòu)建對(duì)手策略池進(jìn)行虛擬對(duì)弈,提升策略質(zhì)量。以下分別進(jìn)行介紹上述兩種對(duì)手建模方法。

    3.2.1 經(jīng)典機(jī)器學(xué)習(xí)方法

    經(jīng)典的機(jī)器學(xué)習(xí)方法對(duì)手建模的思路通常為用數(shù)據(jù)擬合行為策略特征,由于星際爭霸I 保存了回放的功能,可以下載游戲日志,傳統(tǒng)的方法一般通過保存的游戲數(shù)據(jù)進(jìn)行研究。一種基于數(shù)據(jù)挖掘的策略博弈對(duì)手建模方法[60]使用機(jī)器學(xué)習(xí)識(shí)別對(duì)手的策略,以及預(yù)測對(duì)手行為,通過將游戲日志編碼為特征向量,將對(duì)手策略預(yù)測轉(zhuǎn)換為了分類問題。一種類似的方法[61]也是從回放數(shù)據(jù)中學(xué)習(xí)不能直接建模作戰(zhàn)模型參數(shù),估計(jì)的模型優(yōu)于手工提取的模型。用于星際爭霸的一種聚類方法[62]使用K-Means 算法將參與者的策略從有限的策略集中進(jìn)行分類。對(duì)抗層次任務(wù)網(wǎng)絡(luò)(adversarial hierarchical task network,AHTN)[63]規(guī)劃將極小極大值搜索算法與分層任務(wù)分解(hierarchical task decomposition,HTN)相結(jié)合,已成功應(yīng)用于RTS游戲,但是并沒有考慮對(duì)手的因素,AHTNCO方法[64]在此基礎(chǔ)之上引入對(duì)手建模,通過對(duì)手策略來模擬對(duì)手行為,采用對(duì)手策略生成最小節(jié)點(diǎn),直到找到第一個(gè)可行的動(dòng)作,再執(zhí)行該動(dòng)作并生成最大節(jié)點(diǎn)。

    3.2.2 虛擬對(duì)弈方法

    虛擬對(duì)弈(fictitious play,F(xiàn)P)[65]近年來被用來解決星際爭霸、DOTA2 等大規(guī)模不完美信息博弈問題。FP是一種傳統(tǒng)的基于對(duì)弈的不完美博弈均衡求解方法,每個(gè)參與者在對(duì)弈中保持兩個(gè)策略:平均策略(average strategies)和最優(yōu)反應(yīng)策略(best response),每個(gè)參與者在對(duì)弈中不斷地采取對(duì)手平均策略的最優(yōu)反應(yīng)策略,則其平均策略在兩人零和博弈中收斂至納什均衡。根據(jù)從對(duì)手策略池中不同“挑選對(duì)手”和“應(yīng)對(duì)對(duì)手”的方法,虛擬對(duì)弈衍生出神經(jīng)虛擬自對(duì)弈、種群訓(xùn)練(populationbased training,PBT)等變體,如圖8所示。

    圖8 虛擬對(duì)弈衍生變體示意圖Fig.8 Variants of fictitious play

    虛擬自對(duì)弈(fictitious self-play,F(xiàn)SP)[66]將博弈論和機(jī)器學(xué)習(xí)的方法相結(jié)合,分別通過基于強(qiáng)化學(xué)習(xí)方法和基于樣本的監(jiān)督學(xué)習(xí)逼近最佳響應(yīng)和平均策略。神經(jīng)虛擬自對(duì)弈方法(neural fictitious self-play,NFSP)[67]將FSP與神經(jīng)網(wǎng)絡(luò)近似函數(shù)相結(jié)合,是一個(gè)在不完美信息中不需要先驗(yàn)知識(shí)就能學(xué)習(xí)到近似納什均衡的端到端的強(qiáng)化學(xué)習(xí)技術(shù)。NFSP中的最佳反應(yīng)依賴于深度Q學(xué)習(xí)的計(jì)算,收斂時(shí)間長。來自浙大的研究團(tuán)隊(duì)提出了異步神經(jīng)虛擬自對(duì)弈(asynchronous neural fictitious self play,ANFSP)[68]方法,以更快更穩(wěn)地接近近似納什均衡,該方法在德州撲克和第一人稱射擊游戲(FPS)中均取得了不錯(cuò)表現(xiàn)。FSP 的變體優(yōu)先虛擬自對(duì)弈的方法(prioritized fictitious self-play,PFSP)[3]已經(jīng)成功應(yīng)用于AlphaStar,DeepMind 創(chuàng)新性地提出聯(lián)賽訓(xùn)練(league training)的概念,即保留所有訓(xùn)練中產(chǎn)生的歷史版本,并將每一代訓(xùn)練的AI 都放到訓(xùn)練池中進(jìn)行互相對(duì)抗,全方位提升了AI 的水平,這種基于種群的訓(xùn)練方法是對(duì)手建模的一種方式。

    3.3 元博弈方法

    策略空間響應(yīng)Oracles(policy-space response oracles,PSRO)[69]作為博弈論與強(qiáng)化學(xué)習(xí)算法結(jié)合的產(chǎn)物,通過模擬所有參與者策略配對(duì)的結(jié)果,構(gòu)建了一個(gè)更通用的博弈,即元博弈(meta-game),其根據(jù)已有的元博弈策略的分布為每個(gè)參與者訓(xùn)練新策略,然后將這些新策略添加策略池中,并進(jìn)行迭代,如圖9所示。

    圖9 元博弈策略學(xué)習(xí)框架Fig.9 Framework of meta-game strategy learning

    PSRO 使用混合元策略,可以防止對(duì)特定策略的響應(yīng)過度擬合,并且能夠產(chǎn)生安全利用對(duì)手的魯棒反策略。由于一般性博弈(如多人博弈)中納什均衡難以計(jì)算,DeepMind 研究人員提了出納什均衡的替代解α-Rank[70]作為元求解器,將PSRO 擴(kuò)展到了多人博弈[71]。PSRO極具概括性,可以將FSP的思想融入MARL,成為了一種通用的算法框架。一種管道PSRO(pipeline PSRO,P2SRO)[72]方法通過并行化來解決大規(guī)模不完美信息博弈策略學(xué)習(xí)收斂速度慢的問題。

    4 研究展望

    4.1 有限理性對(duì)手建模

    通常情況下博弈參與者被認(rèn)為是絕對(duì)理性的,然而在現(xiàn)實(shí)的場景中人類參與者往往無法做出最佳策略,即對(duì)手行為偏離博弈中的均衡解。MARL 模型中一般假設(shè)的是完全理性的智能體,實(shí)際上個(gè)體的認(rèn)知是有限制的,進(jìn)行決策時(shí)也會(huì)受個(gè)人偏好等諸多方面的影響。在重復(fù)博弈過程中,高水平的參與者逐漸適應(yīng)對(duì)手的打法后,試圖“操控”博弈過程時(shí)也會(huì)表現(xiàn)出非理性行為。例如:通過設(shè)計(jì)巧妙的“陷阱”,暫時(shí)放棄短期的最優(yōu)收益,誘使對(duì)手做出錯(cuò)誤的決策,以獲得長期的收益。開展對(duì)有限理性參與者的建模,有助于機(jī)器心智理論的研究,提高機(jī)器智能可解釋性。

    4.2 策略欺騙性對(duì)手建模

    欺騙與反欺騙是一種廣泛存在的對(duì)抗形式,在人工智能領(lǐng)域更是屢見不鮮,如:圖靈測試、電磁對(duì)抗、Deepfake技術(shù)等,但在博弈對(duì)抗中欺騙的研究方興未艾。納什策略往往過于保守,實(shí)現(xiàn)低可利用性的同時(shí)卻降低了對(duì)對(duì)手弱點(diǎn)的利用,因此尋求安全性和對(duì)手利用之間的平衡點(diǎn)仍然是值得研究的問題[73-74]。以撲克游戲?yàn)槔?,參與者可以通過采用詐唬的手段混淆對(duì)手的認(rèn)知,欺騙對(duì)手從而達(dá)到贏得對(duì)局的目的。欺騙方法研究是博弈學(xué)習(xí)中的難點(diǎn),如何有效地利用欺騙手段并識(shí)別對(duì)手的欺騙,有待繼續(xù)深入研究[75]。

    4.3 可解釋性對(duì)手建模

    可解釋人工智能(explainable artificial intelligence,XAI)是一個(gè)新興的多學(xué)科研究領(lǐng)域。2016 年,DARPA提出“可解釋人工智能”項(xiàng)目,計(jì)劃構(gòu)建一類方法,使之“能夠解釋它們的基本原理,描述它們的優(yōu)缺點(diǎn),并傳達(dá)關(guān)于它們未來行為的解讀”。從模型安全角度考慮,對(duì)手模型的可解釋性極其關(guān)鍵,為最優(yōu)決策提供安全性支撐。當(dāng)前關(guān)于對(duì)手建模與利用的人工智能方法,在推理結(jié)果的可解釋性上表現(xiàn)不足。研究如何使智能系統(tǒng)的行為對(duì)人類更透明、更易懂、更可信將是未來的熱點(diǎn)方向之一。

    5 結(jié)束語

    己方策略的制定必須以博弈對(duì)抗各方的行動(dòng)策略為前提,建立一個(gè)準(zhǔn)確的對(duì)手行為模型以預(yù)測對(duì)手意圖尤其重要。對(duì)手建模作為多智能體博弈對(duì)抗的理論基礎(chǔ)和技術(shù)支撐之一,與博弈論和強(qiáng)化學(xué)習(xí)方法相互結(jié)合,以解決復(fù)雜環(huán)境下的智能博弈決策問題在推測敵對(duì)智能體動(dòng)作、目標(biāo)、策略等相關(guān)屬性的同時(shí),降低智能體策略的可利用性,最大程度安全利用對(duì)手,為博弈策略制定提供支撐。本文著眼于智能博弈對(duì)抗需求,以對(duì)手建模理論為核心,闡述對(duì)手建模必要性,總結(jié)分類現(xiàn)有對(duì)手建模方式,分析智能博弈對(duì)抗中的對(duì)手建模前沿關(guān)鍵技術(shù)、典型應(yīng)用以及存在的主要挑戰(zhàn)。對(duì)手建模結(jié)合博弈理論和強(qiáng)化學(xué)習(xí)的研究雖然已經(jīng)成果豐碩,但如何向具有“有限理性、欺騙性、可解釋性”等特點(diǎn)的復(fù)雜應(yīng)用場景中遷移,仍是未來值得深入研究的問題。

    猜你喜歡
    撲克建模智能
    小撲克打出大品牌
    聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運(yùn)動(dòng)”為例
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    基于PSS/E的風(fēng)電場建模與動(dòng)態(tài)分析
    電子制作(2018年17期)2018-09-28 01:56:44
    不對(duì)稱半橋變換器的建模與仿真
    最環(huán)保的撲克版空氣加濕器
    三元組輻射場的建模與仿真
    黄色日韩在线| 黄片wwwwww| 国产黄a三级三级三级人| 国内毛片毛片毛片毛片毛片| 韩国av在线不卡| 国产在线精品亚洲第一网站| 又紧又爽又黄一区二区| 成人三级黄色视频| 日本爱情动作片www.在线观看 | 一进一出抽搐动态| 国产在线男女| 国产三级中文精品| 露出奶头的视频| 成年人黄色毛片网站| 直男gayav资源| 人妻制服诱惑在线中文字幕| 嫩草影视91久久| 婷婷色综合大香蕉| 国产在视频线在精品| 久9热在线精品视频| 能在线免费观看的黄片| 亚洲va在线va天堂va国产| 桃红色精品国产亚洲av| 欧美在线一区亚洲| 天堂√8在线中文| 亚洲人成网站高清观看| 日韩欧美在线二视频| 国产大屁股一区二区在线视频| 又黄又爽又刺激的免费视频.| 国产伦一二天堂av在线观看| 国产亚洲91精品色在线| av国产免费在线观看| 一进一出抽搐gif免费好疼| av天堂中文字幕网| 国产极品精品免费视频能看的| 女同久久另类99精品国产91| 亚洲中文字幕日韩| 国产精品98久久久久久宅男小说| 人妻丰满熟妇av一区二区三区| 在线看三级毛片| 最近最新免费中文字幕在线| 国产黄色小视频在线观看| 美女xxoo啪啪120秒动态图| 欧美一区二区国产精品久久精品| 亚洲精品色激情综合| 日韩欧美三级三区| 久久人人爽人人爽人人片va| 他把我摸到了高潮在线观看| 色哟哟哟哟哟哟| 人人妻,人人澡人人爽秒播| 最好的美女福利视频网| 久久这里只有精品中国| 在线免费观看的www视频| 国产一区二区在线av高清观看| 亚州av有码| 久久中文看片网| 男女下面进入的视频免费午夜| av在线蜜桃| 日韩中文字幕欧美一区二区| 伊人久久精品亚洲午夜| 免费av不卡在线播放| 女同久久另类99精品国产91| 欧美区成人在线视频| 两性午夜刺激爽爽歪歪视频在线观看| 色综合色国产| 成年女人看的毛片在线观看| 91av网一区二区| 国产精品,欧美在线| 亚洲精品粉嫩美女一区| 亚洲精品在线观看二区| 欧美日韩综合久久久久久 | 日韩大尺度精品在线看网址| 国内精品久久久久久久电影| 在线看三级毛片| 如何舔出高潮| av黄色大香蕉| 真人做人爱边吃奶动态| 黄色一级大片看看| 日本成人三级电影网站| 1000部很黄的大片| 最好的美女福利视频网| 黄片wwwwww| 国产一区二区激情短视频| 亚洲av熟女| 别揉我奶头~嗯~啊~动态视频| 成人鲁丝片一二三区免费| 一本精品99久久精品77| 亚洲男人的天堂狠狠| 在线免费观看不下载黄p国产 | 久久久精品大字幕| 99热精品在线国产| 精品久久久久久久人妻蜜臀av| 国产成人一区二区在线| 最好的美女福利视频网| 久久午夜福利片| 国产色爽女视频免费观看| 日本黄色视频三级网站网址| 听说在线观看完整版免费高清| 久久精品国产99精品国产亚洲性色| 赤兔流量卡办理| 少妇熟女aⅴ在线视频| 熟妇人妻久久中文字幕3abv| 亚洲在线观看片| 欧美国产日韩亚洲一区| 一本精品99久久精品77| a级一级毛片免费在线观看| 网址你懂的国产日韩在线| 搡女人真爽免费视频火全软件 | 少妇的逼好多水| 亚洲性夜色夜夜综合| 久久久久久久午夜电影| 欧美性猛交黑人性爽| 亚洲av日韩精品久久久久久密| 午夜亚洲福利在线播放| 啪啪无遮挡十八禁网站| 久久久国产成人免费| 国产 一区 欧美 日韩| 我的老师免费观看完整版| 亚洲精品国产成人久久av| 日本黄色片子视频| 国产精品亚洲一级av第二区| 色综合站精品国产| 国产麻豆成人av免费视频| 级片在线观看| 99久久精品一区二区三区| 中国美白少妇内射xxxbb| 婷婷亚洲欧美| 白带黄色成豆腐渣| 老司机深夜福利视频在线观看| 日本成人三级电影网站| 久久精品影院6| 51国产日韩欧美| av在线亚洲专区| 一区二区三区高清视频在线| 国产三级中文精品| 亚洲成人精品中文字幕电影| 一区福利在线观看| 午夜a级毛片| 国产成年人精品一区二区| 欧美一区二区亚洲| 最近最新免费中文字幕在线| 国产精品伦人一区二区| 国产精品久久电影中文字幕| 别揉我奶头 嗯啊视频| 老司机午夜福利在线观看视频| 亚洲中文日韩欧美视频| 亚洲美女视频黄频| 一进一出抽搐动态| 欧美日韩瑟瑟在线播放| 久久久午夜欧美精品| 午夜影院日韩av| 久久国产乱子免费精品| 国产高清激情床上av| 国产不卡一卡二| 国产精品一区二区三区四区久久| 精品一区二区三区视频在线观看免费| 女同久久另类99精品国产91| 自拍偷自拍亚洲精品老妇| 国产精品免费一区二区三区在线| 99热网站在线观看| 国产高清视频在线观看网站| 国产91精品成人一区二区三区| 色综合站精品国产| 俺也久久电影网| 简卡轻食公司| 特大巨黑吊av在线直播| 国产高潮美女av| 国产精品精品国产色婷婷| 成人亚洲精品av一区二区| 国产一级毛片七仙女欲春2| 嫩草影院精品99| 亚洲av电影不卡..在线观看| 亚洲经典国产精华液单| 亚洲精品成人久久久久久| 亚洲内射少妇av| 床上黄色一级片| 欧美日韩乱码在线| 欧美xxxx黑人xx丫x性爽| 乱系列少妇在线播放| 亚洲图色成人| 少妇高潮的动态图| 国产精品爽爽va在线观看网站| 欧美成人免费av一区二区三区| 亚洲第一区二区三区不卡| 变态另类丝袜制服| 国产成人影院久久av| 成人鲁丝片一二三区免费| 中文字幕人妻熟人妻熟丝袜美| av在线亚洲专区| 免费观看在线日韩| 精品人妻1区二区| 国产成人福利小说| 免费搜索国产男女视频| x7x7x7水蜜桃| 中文字幕高清在线视频| 国产三级中文精品| 久久久久国内视频| 欧美人与善性xxx| 香蕉av资源在线| 51国产日韩欧美| 精品福利观看| 一级毛片久久久久久久久女| 啦啦啦观看免费观看视频高清| 精品人妻1区二区| 在线观看美女被高潮喷水网站| 久99久视频精品免费| 高清在线国产一区| 精品国内亚洲2022精品成人| 色5月婷婷丁香| 亚洲一区二区三区色噜噜| 日韩欧美精品v在线| 美女高潮喷水抽搐中文字幕| 久久亚洲真实| 国产v大片淫在线免费观看| 亚洲,欧美,日韩| 国产高潮美女av| 精品一区二区三区人妻视频| 色综合亚洲欧美另类图片| 欧美性猛交黑人性爽| 少妇人妻精品综合一区二区 | 亚洲av成人精品一区久久| 老熟妇乱子伦视频在线观看| 黄色女人牲交| 少妇猛男粗大的猛烈进出视频 | 亚洲无线在线观看| 琪琪午夜伦伦电影理论片6080| 国产精品嫩草影院av在线观看 | 一个人看的www免费观看视频| 九九久久精品国产亚洲av麻豆| 国内毛片毛片毛片毛片毛片| 欧美xxxx黑人xx丫x性爽| 91精品国产九色| 18+在线观看网站| 全区人妻精品视频| 精品国产三级普通话版| 久久久精品欧美日韩精品| 国产真实乱freesex| 国产大屁股一区二区在线视频| 男人舔奶头视频| 国产成人影院久久av| 国产精品亚洲美女久久久| 亚洲18禁久久av| aaaaa片日本免费| 国产免费男女视频| 美女大奶头视频| 淫秽高清视频在线观看| 亚洲va在线va天堂va国产| 极品教师在线视频| 国产亚洲精品av在线| 悠悠久久av| 搡女人真爽免费视频火全软件 | 日本与韩国留学比较| 亚洲18禁久久av| 亚洲性夜色夜夜综合| 久9热在线精品视频| 欧美国产日韩亚洲一区| 18+在线观看网站| 一区二区三区高清视频在线| 久久精品综合一区二区三区| 无人区码免费观看不卡| 麻豆一二三区av精品| 日本黄大片高清| АⅤ资源中文在线天堂| a在线观看视频网站| 亚洲人成网站高清观看| 亚洲一区二区三区色噜噜| 精品午夜福利在线看| 亚洲av不卡在线观看| 国产三级中文精品| 久久国内精品自在自线图片| 变态另类成人亚洲欧美熟女| 69人妻影院| 小蜜桃在线观看免费完整版高清| 免费高清视频大片| 最近视频中文字幕2019在线8| 尤物成人国产欧美一区二区三区| av国产免费在线观看| 三级毛片av免费| 午夜福利在线观看免费完整高清在 | 国产白丝娇喘喷水9色精品| or卡值多少钱| 看片在线看免费视频| 国产精品免费一区二区三区在线| 久久精品国产鲁丝片午夜精品 | 老师上课跳d突然被开到最大视频| 久久国产乱子免费精品| 欧美3d第一页| 久久人人精品亚洲av| 99精品久久久久人妻精品| 国产熟女欧美一区二区| 校园人妻丝袜中文字幕| 91狼人影院| 亚洲内射少妇av| 最近最新中文字幕大全电影3| 午夜福利欧美成人| 婷婷丁香在线五月| 日韩欧美国产一区二区入口| 美女 人体艺术 gogo| 亚洲国产高清在线一区二区三| 99国产精品一区二区蜜桃av| 亚洲性久久影院| 琪琪午夜伦伦电影理论片6080| 国产精品一区二区免费欧美| 国产私拍福利视频在线观看| 国产av一区在线观看免费| 美女免费视频网站| 免费看av在线观看网站| 日韩欧美国产一区二区入口| 国产中年淑女户外野战色| 成人特级黄色片久久久久久久| 国产一区二区亚洲精品在线观看| 欧美3d第一页| 国语自产精品视频在线第100页| 欧美bdsm另类| 国产黄色小视频在线观看| 女的被弄到高潮叫床怎么办 | 最新中文字幕久久久久| 性插视频无遮挡在线免费观看| 老女人水多毛片| .国产精品久久| 国国产精品蜜臀av免费| 国产亚洲欧美98| 伦理电影大哥的女人| 我要搜黄色片| 中文字幕久久专区| 国产一区二区三区av在线 | 国产av一区在线观看免费| 波野结衣二区三区在线| 草草在线视频免费看| 久久久久九九精品影院| 看片在线看免费视频| 2021天堂中文幕一二区在线观| 免费大片18禁| 成人亚洲精品av一区二区| 欧美最新免费一区二区三区| 国产精品日韩av在线免费观看| 黄色欧美视频在线观看| 久久国产乱子免费精品| 久久国内精品自在自线图片| 赤兔流量卡办理| 村上凉子中文字幕在线| 免费观看人在逋| 日韩欧美在线二视频| 动漫黄色视频在线观看| 亚洲精品色激情综合| 夜夜夜夜夜久久久久| 国产精品一区二区三区四区免费观看 | 成人一区二区视频在线观看| 精品一区二区免费观看| 99久久成人亚洲精品观看| 午夜福利在线在线| 久久久久国内视频| 日日摸夜夜添夜夜添小说| 深夜a级毛片| 少妇猛男粗大的猛烈进出视频 | 精品久久久久久久久久免费视频| 国产熟女欧美一区二区| 久久精品综合一区二区三区| 99热这里只有精品一区| 国产 一区 欧美 日韩| 国产伦在线观看视频一区| 午夜影院日韩av| 日本 欧美在线| 欧美最黄视频在线播放免费| 日本黄色视频三级网站网址| 国产av不卡久久| 亚洲精品456在线播放app | 天堂动漫精品| 啦啦啦啦在线视频资源| 在线观看免费视频日本深夜| 中文字幕熟女人妻在线| 亚洲不卡免费看| 国产午夜精品久久久久久一区二区三区 | 精品久久久久久久久亚洲 | 国产一区二区三区av在线 | 国产国拍精品亚洲av在线观看| 精品日产1卡2卡| 亚洲精品一卡2卡三卡4卡5卡| 国产精品女同一区二区软件 | 亚洲精品色激情综合| 91麻豆av在线| 亚洲精品一卡2卡三卡4卡5卡| 国产精品1区2区在线观看.| 长腿黑丝高跟| 欧美3d第一页| 亚洲欧美日韩东京热| 一区福利在线观看| 精品一区二区三区视频在线| 午夜日韩欧美国产| 亚洲精品亚洲一区二区| 天美传媒精品一区二区| 国产精品一区二区免费欧美| 精品人妻偷拍中文字幕| 一个人观看的视频www高清免费观看| 欧美日韩亚洲国产一区二区在线观看| 夜夜看夜夜爽夜夜摸| 日本免费a在线| 99热精品在线国产| 一进一出好大好爽视频| 中出人妻视频一区二区| 欧美丝袜亚洲另类 | 久久精品久久久久久噜噜老黄 | 国产乱人视频| 国产男人的电影天堂91| 此物有八面人人有两片| 99九九线精品视频在线观看视频| 亚洲国产精品久久男人天堂| 日韩精品青青久久久久久| 亚洲七黄色美女视频| 一本精品99久久精品77| 91午夜精品亚洲一区二区三区 | 真实男女啪啪啪动态图| 精品人妻偷拍中文字幕| 搡老妇女老女人老熟妇| 精品久久久久久久人妻蜜臀av| 波多野结衣高清作品| 真实男女啪啪啪动态图| 色吧在线观看| 又爽又黄a免费视频| 欧美日韩精品成人综合77777| 51国产日韩欧美| 日韩欧美 国产精品| 亚洲欧美清纯卡通| 国产视频一区二区在线看| 欧美成人a在线观看| 一个人看的www免费观看视频| 亚洲成人精品中文字幕电影| 天堂√8在线中文| 亚洲天堂国产精品一区在线| 亚洲国产精品sss在线观看| 国产人妻一区二区三区在| 国产免费男女视频| 美女xxoo啪啪120秒动态图| netflix在线观看网站| 中文字幕熟女人妻在线| 日韩欧美在线乱码| 亚洲一级一片aⅴ在线观看| 在线免费观看不下载黄p国产 | 一区二区三区免费毛片| 在线国产一区二区在线| 日本精品一区二区三区蜜桃| 欧美国产日韩亚洲一区| 精品国产三级普通话版| 久久精品国产亚洲av天美| 久久国产乱子免费精品| 国产麻豆成人av免费视频| 免费在线观看日本一区| 免费看光身美女| 国产成人福利小说| 久久久久久久久久久丰满 | 久久久久久九九精品二区国产| 俄罗斯特黄特色一大片| 久久国产精品人妻蜜桃| 国产一区二区在线观看日韩| 色哟哟·www| 亚洲一区二区三区色噜噜| 自拍偷自拍亚洲精品老妇| 在现免费观看毛片| 亚洲av二区三区四区| 超碰av人人做人人爽久久| 大又大粗又爽又黄少妇毛片口| 国产不卡一卡二| 久久久久性生活片| 午夜福利在线观看免费完整高清在 | 国产黄色小视频在线观看| 亚洲人成网站高清观看| 日本 av在线| 非洲黑人性xxxx精品又粗又长| 精品一区二区三区人妻视频| 天天躁日日操中文字幕| 天天一区二区日本电影三级| 日韩欧美免费精品| 亚洲国产日韩欧美精品在线观看| 欧美性猛交黑人性爽| 99热这里只有是精品50| 黄片wwwwww| 久久久久性生活片| 欧美区成人在线视频| 日韩av在线大香蕉| 午夜免费男女啪啪视频观看 | 亚洲精品亚洲一区二区| 国产淫片久久久久久久久| 精品不卡国产一区二区三区| 亚洲国产精品成人综合色| 日本熟妇午夜| 俄罗斯特黄特色一大片| 中文字幕高清在线视频| 国产一区二区激情短视频| 午夜免费男女啪啪视频观看 | 亚洲人成网站在线播| 久久婷婷人人爽人人干人人爱| 亚洲avbb在线观看| 韩国av一区二区三区四区| 国产精品,欧美在线| 亚洲avbb在线观看| 国产 一区精品| 国产真实乱freesex| 欧美日韩综合久久久久久 | 99精品久久久久人妻精品| 三级国产精品欧美在线观看| 欧美成人性av电影在线观看| 亚洲,欧美,日韩| 午夜亚洲福利在线播放| 国产伦在线观看视频一区| 听说在线观看完整版免费高清| 国产高清三级在线| 色吧在线观看| 日本三级黄在线观看| 午夜影院日韩av| bbb黄色大片| 国产精品综合久久久久久久免费| 美女cb高潮喷水在线观看| 一个人看的www免费观看视频| 亚洲av第一区精品v没综合| 亚洲,欧美,日韩| 欧美日韩乱码在线| 少妇高潮的动态图| 成人性生交大片免费视频hd| 国产不卡一卡二| 精品久久久久久久久久免费视频| 亚洲熟妇中文字幕五十中出| 国内精品久久久久精免费| 亚洲精品色激情综合| av黄色大香蕉| 婷婷六月久久综合丁香| 亚洲av电影不卡..在线观看| 亚洲成人精品中文字幕电影| 简卡轻食公司| 国产免费一级a男人的天堂| 男人和女人高潮做爰伦理| 国产熟女欧美一区二区| 嫁个100分男人电影在线观看| 国产乱人伦免费视频| 99久久无色码亚洲精品果冻| 亚洲va日本ⅴa欧美va伊人久久| 一个人免费在线观看电影| 国产探花极品一区二区| 俺也久久电影网| 自拍偷自拍亚洲精品老妇| 久久人妻av系列| 少妇裸体淫交视频免费看高清| 一区二区三区激情视频| 一级av片app| 长腿黑丝高跟| 欧美不卡视频在线免费观看| 国产麻豆成人av免费视频| 男女做爰动态图高潮gif福利片| 少妇的逼水好多| 欧美成人一区二区免费高清观看| av中文乱码字幕在线| 级片在线观看| 日韩欧美免费精品| 三级国产精品欧美在线观看| 午夜福利成人在线免费观看| 琪琪午夜伦伦电影理论片6080| 婷婷精品国产亚洲av| 亚洲人成伊人成综合网2020| 美女黄网站色视频| 日本熟妇午夜| 国产精品美女特级片免费视频播放器| 精品久久久噜噜| 亚洲欧美日韩卡通动漫| 中文字幕av成人在线电影| 久久久久久久久久久丰满 | 欧美高清性xxxxhd video| 欧美一区二区国产精品久久精品| 变态另类成人亚洲欧美熟女| 国产亚洲欧美98| 天堂动漫精品| 老熟妇乱子伦视频在线观看| 中文字幕精品亚洲无线码一区| 91麻豆精品激情在线观看国产| 欧美人与善性xxx| 99在线视频只有这里精品首页| 午夜福利欧美成人| 中文字幕av在线有码专区| 一个人观看的视频www高清免费观看| av.在线天堂| 午夜激情欧美在线| 91av网一区二区| 亚洲不卡免费看| 在线免费观看的www视频| 大又大粗又爽又黄少妇毛片口| 麻豆国产97在线/欧美| 亚洲在线观看片| 床上黄色一级片| 午夜日韩欧美国产| 搡老妇女老女人老熟妇| 黄色配什么色好看| 欧美成人一区二区免费高清观看| 日本-黄色视频高清免费观看| 一进一出抽搐动态| 午夜福利在线在线| 又爽又黄无遮挡网站| 成人国产麻豆网| 又黄又爽又刺激的免费视频.| 精品午夜福利在线看| 真人做人爱边吃奶动态| 我要搜黄色片| 老熟妇仑乱视频hdxx| 天堂影院成人在线观看| а√天堂www在线а√下载| 国产乱人视频| av在线老鸭窝| 免费搜索国产男女视频| 久久久久久九九精品二区国产| 干丝袜人妻中文字幕| avwww免费| 精品一区二区三区av网在线观看| 亚洲精品色激情综合| 看黄色毛片网站| 精品免费久久久久久久清纯| 成人国产综合亚洲| 在线观看午夜福利视频| 久久久久久九九精品二区国产|