• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    人工智能與“星際爭(zhēng)霸”:多智能體博弈研究新進(jìn)展

    2019-04-01 03:53:18張宏達(dá)李德才何玉慶
    無(wú)人系統(tǒng)技術(shù) 2019年1期
    關(guān)鍵詞:程序人工智能智能

    張宏達(dá) ,李德才 ,何玉慶

    (1.中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所機(jī)器人學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng) 110016;2.中國(guó)科學(xué)院機(jī)器人與智能制造創(chuàng)新研究院,沈陽(yáng) 110016;3.中國(guó)科學(xué)院大學(xué),北京 100049)

    1 引 言

    2016年3月,Deepmind科研團(tuán)隊(duì)的圍棋程序AlphaGo[1]以4∶1的成績(jī)戰(zhàn)勝韓國(guó)圍棋世界冠軍李世石,這一研究成果在全球范圍內(nèi)引起巨大轟動(dòng),人工智能研究再一次吸引了世界的目光。在攻克圍棋這一艱巨任務(wù)之后,Deepmind將研究重點(diǎn)轉(zhuǎn)向更加復(fù)雜的領(lǐng)域——多智能體博弈游戲,并與美國(guó)電子游戲公司暴雪娛樂(Blizzard Entertainment)合作,在星際爭(zhēng)霸II的游戲環(huán)境基礎(chǔ)上開發(fā)了可進(jìn)行更高水平人工智能研究的學(xué)習(xí)環(huán)境。鑒于該領(lǐng)域聚集了當(dāng)前人工智能研究領(lǐng)域最具挑戰(zhàn)的難題,國(guó)內(nèi)外眾多科研單位也競(jìng)相投入到這一領(lǐng)域當(dāng)中。多智能體博弈游戲不僅在人工智能研究領(lǐng)域極具研究?jī)r(jià)值,其在社會(huì)管理、智能交通、經(jīng)濟(jì)、軍事等領(lǐng)域同樣具有巨大的潛在應(yīng)用價(jià)值。

    對(duì)于當(dāng)前狀態(tài)或動(dòng)態(tài)變化既無(wú)完美信息又無(wú)完整信息可用的復(fù)雜動(dòng)態(tài)環(huán)境,給人工智能研究帶來(lái)顯著挑戰(zhàn)[2]?,F(xiàn)實(shí)社會(huì)中很多大型、復(fù)雜的動(dòng)態(tài)環(huán)境問題如路面交通系統(tǒng)、氣象預(yù)報(bào)、經(jīng)濟(jì)預(yù)測(cè)、智慧城市管理、軍事決策等均是實(shí)例。然而,對(duì)這些實(shí)際問題進(jìn)行建模仿真存在很大困難。與此同時(shí),一系列實(shí)時(shí)策略游戲提供了與真實(shí)環(huán)境相似的、非完美和非完整信息、長(zhǎng)遠(yuǎn)規(guī)劃、復(fù)雜問題決策的仿真環(huán)境。這些實(shí)時(shí)策略游戲環(huán)境既能模擬現(xiàn)實(shí)問題的關(guān)鍵難點(diǎn),又具有可準(zhǔn)確評(píng)估、迭代迅速、便于交互和布署、可重復(fù)等特點(diǎn),為解決實(shí)際問題提供了絕佳的研究平臺(tái)。因此,基于實(shí)時(shí)策略游戲環(huán)境的研究工作對(duì)人工智能技術(shù)的發(fā)展和解決復(fù)雜的實(shí)際問題都有重要意義。在眾多的研究平臺(tái)中,星際爭(zhēng)霸以其豐富的環(huán)境信息、逼真的環(huán)境場(chǎng)景等特點(diǎn)成為常用的理論研究和方法驗(yàn)證平臺(tái)。

    實(shí)時(shí)策略游戲——星際爭(zhēng)霸具有實(shí)時(shí)對(duì)抗、巨大的搜索空間、非完全信息博弈、多異構(gòu)智能體協(xié)作、時(shí)空推理、多復(fù)雜任務(wù)、長(zhǎng)遠(yuǎn)全局規(guī)劃等特點(diǎn),同時(shí)這些也是人工智能領(lǐng)域極具挑戰(zhàn)的難題。自星際爭(zhēng)霸第一版游戲于1998年正式發(fā)布以來(lái),不少研究者將其作為人工智能研究環(huán)境進(jìn)行了大量的研究。2010年開始,一些星際爭(zhēng)霸人工智能游戲程序國(guó)際競(jìng)賽開始舉辦,大量人工智能研究和應(yīng)用成果開始發(fā)布。2016年開始,深度學(xué)習(xí)在星際爭(zhēng)霸中的應(yīng)用展現(xiàn)出強(qiáng)大的信息處理和決策能力,自此之后更多的深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)算法被應(yīng)用到該研究領(lǐng)域?;谛请H爭(zhēng)霸進(jìn)行的一系列人工智能研究極大促進(jìn)了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、博弈論、多智能體協(xié)作策略等研究領(lǐng)域的發(fā)展,對(duì)與星際爭(zhēng)霸相關(guān)的研究成果進(jìn)行總結(jié),特別是近兩年產(chǎn)生的新的研究理論和成果進(jìn)行梳理,有助于把握該研究領(lǐng)域的研究進(jìn)展和動(dòng)向,為與該領(lǐng)域相關(guān)的研究提供參考。

    綜上,本文主要開展了以下幾方面的工作。首先介紹星際爭(zhēng)霸游戲環(huán)境并分析其給人工智能研究所帶來(lái)的挑戰(zhàn)。接著,對(duì)現(xiàn)階段星際爭(zhēng)霸相關(guān)研究單位研究成果進(jìn)行介紹,并對(duì)該領(lǐng)域的相關(guān)研究方法進(jìn)行了分類。在此基礎(chǔ)上,列舉了與星際爭(zhēng)霸人工智能研究相關(guān)的資源,包括研究平臺(tái)、數(shù)據(jù)集以及自主游戲程序競(jìng)賽。最后,對(duì)星際爭(zhēng)霸相關(guān)領(lǐng)域未來(lái)可行的研究方向進(jìn)行了預(yù)測(cè)。

    2 星際爭(zhēng)霸和人工智能

    2.1 實(shí)時(shí)策略游戲——星際爭(zhēng)霸

    星際爭(zhēng)霸是暴雪娛樂公司發(fā)布的一款極為經(jīng)典的多角色實(shí)時(shí)策略游戲,目前主要有兩版。自主游戲程序競(jìng)賽基于1998年發(fā)行的第一版游戲環(huán)境,如圖1。2010年發(fā)行的第二版游戲以其更為細(xì)致逼真的游戲環(huán)境和新的競(jìng)技模式更受玩家的歡迎,如圖2。

    星際爭(zhēng)霸提供三種類型的角色供玩家選擇:人族(Terran)、蟲族(Zerg)、神族(Protoss)。每個(gè)種族均包括多種生命角色、戰(zhàn)斗裝備、功能建筑等多類型單元。三種角色各具特色:

    圖1 星際爭(zhēng)霸I競(jìng)賽環(huán)境Fig.1 StarCraft I competition environment

    圖2 星際爭(zhēng)霸II游戲環(huán)境Fig.2 StarCraft II game environment

    人族:人族單元靈活、多樣,其平衡了蟲族和神族的特點(diǎn),是兩者性能的均衡。其作戰(zhàn)單元和建筑有陸戰(zhàn)隊(duì)員、攻城坦克、巡洋艦、導(dǎo)彈發(fā)射塔等。

    蟲族:蟲族繁衍迅速,需要的資源少,單位能力弱但速度快,常以成群的形式以數(shù)量占據(jù)對(duì)抗優(yōu)勢(shì)。其作戰(zhàn)單元和建筑有小狗、蟑螂、飛龍、孢子塔等。

    神族:神族繁殖率不高,但單元科技水平很高、能力強(qiáng),因此需要的資源也多,常以策略的質(zhì)量取代數(shù)量占據(jù)對(duì)抗優(yōu)勢(shì)。其作戰(zhàn)單元和建筑有狂熱者、圣堂武士、鳳凰戰(zhàn)機(jī)、光子炮等。

    在多人對(duì)抗模式中,玩家需要收集盡可能多的礦物、天然氣或零散的獎(jiǎng)勵(lì)等資源來(lái)建造更多的生產(chǎn)、防御等建筑物和生產(chǎn)更多的作戰(zhàn)單元并提升建筑單元和作戰(zhàn)單元的技能等級(jí),以最短的時(shí)間消滅敵方來(lái)贏得勝利。

    2.2 星際爭(zhēng)霸研究的難點(diǎn)及其對(duì)人工智能研究的挑戰(zhàn)

    與棋類游戲相比,多智能體實(shí)時(shí)策略游戲相關(guān)研究更難,主要體現(xiàn)在以下幾點(diǎn)。

    (1)多玩家共存、多異構(gòu)智能體合作。與棋類游戲博弈雙方交替進(jìn)行動(dòng)作不同,實(shí)時(shí)策略游戲中多玩家同時(shí)推動(dòng)游戲情節(jié)發(fā)展,不同的玩家可以同時(shí)進(jìn)行動(dòng)作。游戲中有不同的角色單元和功能建筑,如何更好地發(fā)揮每個(gè)單元的功能也是需要考慮的問題。

    (2)實(shí)時(shí)對(duì)抗及動(dòng)作持續(xù)性。實(shí)時(shí)策略游戲是“實(shí)時(shí)”的,意味著玩家需要在很短的時(shí)間內(nèi)進(jìn)行決策并行動(dòng)。與棋類游戲中玩家有幾分鐘的決策時(shí)間不同,星際爭(zhēng)霸游戲環(huán)境以24幀/秒頻率改變,意味著玩家可以以最高不到42毫秒的頻率進(jìn)行動(dòng)作。若以環(huán)境改變每8幀玩家進(jìn)行一個(gè)動(dòng)作的平均水平來(lái)看,玩家仍需要以每秒3個(gè)動(dòng)作的頻率進(jìn)行博弈。不僅如此,玩家輸出的動(dòng)作有一定的持續(xù)性,需要在一定的時(shí)間持續(xù)執(zhí)行,而非棋類游戲玩家的動(dòng)作是間斷的、突發(fā)的、瞬時(shí)的。

    (3)非完整信息博弈和強(qiáng)不確定性。多數(shù)實(shí)時(shí)策略游戲是部分可觀測(cè)的,玩家僅能觀察到自己已經(jīng)探索的部分地圖情況。在星際爭(zhēng)霸中,因?yàn)橛袘?zhàn)爭(zhēng)迷霧的存在,玩家只能看到自己所控制的游戲角色當(dāng)前所處環(huán)境的情況,其它環(huán)境信息無(wú)法獲知。而棋類游戲玩家可以獲取全棋盤的情況。多數(shù)實(shí)時(shí)策略游戲具有不確定性,即決策過程中采取的動(dòng)作都有一定概率促成最后的勝利。

    (4)巨大的搜索空間及多復(fù)雜任務(wù)。實(shí)時(shí)策略游戲更復(fù)雜,其在狀態(tài)空間的規(guī)模上和每個(gè)決策環(huán)節(jié)可選擇的動(dòng)作序列均非常巨大。例如,就狀態(tài)空間而言,一般的棋類游戲狀態(tài)空間在1050左右,德州撲克約為1080,圍棋的狀態(tài)空間為10170。而星際爭(zhēng)霸一個(gè)典型地圖上的狀態(tài)空間比所有這些棋類的狀態(tài)空間都要大幾個(gè)量級(jí)。以一個(gè)典型的128×128像素地圖為例,在任何時(shí)候,地圖上可能會(huì)有5~400個(gè)單元,每個(gè)單元都可能存在一個(gè)復(fù)雜的內(nèi)在狀態(tài)(剩余的能量和擊打值、待輸出動(dòng)作等),這些因素將導(dǎo)致可能的狀態(tài)極其龐大。即便是僅僅考慮每個(gè)單元在該地圖上可能的位置,400個(gè)單元即有(128×128)400=16384400≈101685種可能。另一種計(jì)算復(fù)雜度的方式以bd來(lái)計(jì)算游戲的復(fù)雜度,其中國(guó)際象棋b≈35,d≈80,圍棋b≈30~300,d≈150~200,而星際爭(zhēng)霸b的范圍是1050~10200,d≈36000。

    多智能體實(shí)時(shí)策略游戲的這些突出難點(diǎn)給該領(lǐng)域人工智能研究方法帶來(lái)巨大挑戰(zhàn)。文獻(xiàn)[2]將本領(lǐng)域研究中的挑戰(zhàn)總結(jié)為規(guī)劃、學(xué)習(xí)、不確定性、時(shí)空推理、領(lǐng)域知識(shí)開發(fā)和任務(wù)分解六個(gè)方面。在此基礎(chǔ)上,我們將當(dāng)前研究中的挑戰(zhàn)分為多尺度規(guī)劃與多層次決策一致性、多途徑策略學(xué)習(xí)、降低不確定性、空間和時(shí)間上的多模聯(lián)合推理、領(lǐng)域知識(shí)開發(fā)和多層次任務(wù)分解六大挑戰(zhàn)。本領(lǐng)域研究難點(diǎn)與研究挑戰(zhàn)的對(duì)應(yīng)關(guān)系如圖3所示。

    圖3 多智能體實(shí)時(shí)策略游戲存在的難點(diǎn)與人工智能研究挑戰(zhàn)的對(duì)應(yīng)關(guān)系Fig.3 Correspondence between the difficulties of multiagent real-time strategy games and the challenges of artificial intelligence research

    (1)多尺度規(guī)劃與多層次決策一致性。一方面,由于多智能體游戲中巨大的狀態(tài)空間和可輸出動(dòng)作,使得一般的對(duì)抗規(guī)劃方法如博弈樹搜索已不能滿足需求,多智能體實(shí)時(shí)策略游戲需要多尺度的規(guī)劃。另一方面,實(shí)時(shí)約束為多異構(gòu)智能體大量的低層次動(dòng)作規(guī)劃與高層次全局決策目標(biāo)的一致性耦合帶來(lái)很大困難,難點(diǎn)在于設(shè)計(jì)一種既考慮復(fù)雜多目標(biāo)優(yōu)化又兼顧計(jì)算效率的方法,最終形成多智能體整體行動(dòng)的實(shí)時(shí)一致性。

    (2)多途徑策略學(xué)習(xí)。除對(duì)抗規(guī)劃技術(shù)之外,一些研究團(tuán)隊(duì)將注意力放在多途徑策略學(xué)習(xí)技術(shù)上,其中包含三種策略學(xué)習(xí)問題。一是提前學(xué)習(xí),即開發(fā)已有數(shù)據(jù),如已有游戲回放、已有的針對(duì)特定地圖的適當(dāng)策略等。難點(diǎn)在于策略的抽象表達(dá)方法以及在實(shí)際博弈過程中如何合理選擇并應(yīng)用這些策略。另外,這些針對(duì)特定環(huán)境的策略是否具有普適性也有待驗(yàn)證。二是游戲中學(xué)習(xí),即在博弈過程中在線學(xué)習(xí)提升游戲水平,這些技術(shù)涉及到強(qiáng)化學(xué)習(xí)方法及對(duì)手建模等,其難點(diǎn)在于狀態(tài)空間巨大且部分可觀測(cè)。三是游戲間相互學(xué)習(xí),即如何將從一個(gè)游戲中學(xué)到的知識(shí)用在另一個(gè)游戲中以提升勝率。一些工作是利用簡(jiǎn)單博弈論方法從預(yù)先定義的策略池中挑選合適的策略,但這些固定的策略無(wú)法根據(jù)具體對(duì)抗環(huán)境進(jìn)行自適應(yīng)調(diào)整和策略提升,因此也限制了對(duì)抗的競(jìng)技水平。

    (3)降低不確定性。這里的不確定性主要包括兩個(gè)部分。一是由于游戲是部分可觀測(cè)的,玩家無(wú)法看到全局的情況,因此需要去偵察來(lái)了解更多的情況。難點(diǎn)在于如何設(shè)計(jì)具有自適應(yīng)能力的好的偵察策略和知識(shí)表示來(lái)降低不確定性。除此之外,由于敵人的策略也是未知的,這種不確定性造成決策的無(wú)目的性,不能很好地根據(jù)敵人的策略適時(shí)調(diào)整對(duì)抗策略,所以需要通過好的預(yù)測(cè)模型預(yù)測(cè)對(duì)手的意圖。

    (4)空間和時(shí)間上的多模聯(lián)合推理。空間上的推理包括不同功能建筑建造的位置、防御攻擊建筑建造的位置以及對(duì)戰(zhàn)中各作戰(zhàn)單元所處的位置等應(yīng)該如何合理安排。除此之外,各功能單元在不同的地形上可以發(fā)揮出不同程度的攻擊、防御等功能,如坦克在高地勢(shì)時(shí)攻擊范圍更大等,這些也是空間推理應(yīng)考慮的因素。時(shí)間推理是指玩家既要在當(dāng)前戰(zhàn)斗中采取戰(zhàn)術(shù)戰(zhàn)勝敵人,又需要在更高水平上長(zhǎng)遠(yuǎn)地規(guī)劃如何安排自己的資源、建造功能建筑或升級(jí)、策略轉(zhuǎn)換等。有些策略是短時(shí)間就可以看到效果的,而有些策略需要較長(zhǎng)的時(shí)間才發(fā)揮作用,因此需要長(zhǎng)遠(yuǎn)全局規(guī)劃和短期局部規(guī)劃的統(tǒng)一。其中長(zhǎng)遠(yuǎn)策略規(guī)劃中由于一些策略在很長(zhǎng)一段時(shí)間后才發(fā)揮作用,導(dǎo)致智能體在學(xué)習(xí)過程中不能很好地從長(zhǎng)時(shí)間的延遲獎(jiǎng)勵(lì)中學(xué)到有用的策略。另外,由于空間推理和時(shí)間推理是兩種不同模式的推理形式,需要構(gòu)建兩種模式相融合的推理策略。

    (5)領(lǐng)域知識(shí)開發(fā)。實(shí)時(shí)策略游戲已經(jīng)發(fā)展了多年,產(chǎn)生很多可利用的戰(zhàn)術(shù)動(dòng)作、規(guī)律和策略等數(shù)據(jù)。充分利用該領(lǐng)域的已有知識(shí)可極大提升自主游戲程序的競(jìng)技水平。該領(lǐng)域早期研究者將從數(shù)據(jù)中總結(jié)的策略編寫成代碼,游戲程序可以從這些編好的代碼中選擇。近兩年大量的游戲數(shù)據(jù)集可供機(jī)器學(xué)習(xí)提取有用信息。如何從大量的數(shù)據(jù)中提取有價(jià)值的策略,形成自主游戲程序的決策網(wǎng)絡(luò),仍存在極大挑戰(zhàn)。

    (6)多層次任務(wù)分解。多層次任務(wù)分解是指將多智能體博弈游戲分解成不同的子任務(wù),通過分別解決這些子任務(wù)來(lái)降低整體解決的難度。主要可分解成以下幾部分:策略,即高水平?jīng)Q策,如全局戰(zhàn)役主要用什么策略;戰(zhàn)術(shù),即當(dāng)前策略、短時(shí)策略,如一場(chǎng)戰(zhàn)斗中采取何種策略;反應(yīng)控制,即戰(zhàn)斗、戰(zhàn)術(shù)實(shí)施,如戰(zhàn)斗中應(yīng)采取何種走位、用哪種武器攻擊等;地形分析,主要包括敵我雙方所處位置、戰(zhàn)斗地形、可通過道路、地勢(shì)等信息;智能收集信息,主要包括敵方建造了何種建筑、生產(chǎn)了哪種類型的戰(zhàn)斗單元、正在采取什么樣的策略等信息。對(duì)比而言,人類玩家在玩星際爭(zhēng)霸時(shí),決策常分為微觀操作和宏觀大規(guī)模操作。人們不需要進(jìn)行復(fù)雜的多層次任務(wù)分解,只需根據(jù)具體游戲環(huán)境進(jìn)行微觀或宏觀操作即可。

    3 相關(guān)研究和成果

    人工智能和游戲的研究歷史可以追溯到1950年[3]。自1997年5月“深藍(lán)”擊敗國(guó)際象棋大師卡斯帕羅夫起至今,已有大量的游戲程序戰(zhàn)勝了經(jīng)典游戲中的世界冠軍,如跳棋、奧賽羅和拼字游戲。一些布署深度神經(jīng)網(wǎng)絡(luò)的“大腦”,甚至在極其復(fù)雜的游戲中擊敗了世界冠軍,如圍棋。

    從2000年左右開始,人工智能研究人員開始關(guān)注復(fù)雜的戰(zhàn)略模擬游戲。在早期的研究中,一些人認(rèn)為,智能體需要復(fù)雜的表示和推理能力才能在這些環(huán)境中勝出,而構(gòu)建上述能力是具有挑戰(zhàn)性的。研究人員通過抽象狀態(tài)縮小決策搜索空間、遺傳算法學(xué)習(xí)游戲規(guī)劃、使用領(lǐng)域知識(shí)消除靜態(tài)對(duì)手假設(shè)、從專家示范中提取行為知識(shí)等方法降低搜索的難度,為自主游戲程序賦予更強(qiáng)的能力。

    在眾多實(shí)時(shí)策略游戲人工智能研究環(huán)境中,星際爭(zhēng)霸相比之前大多數(shù)工作更具挑戰(zhàn)性。該游戲自1997年出現(xiàn)至今吸引了大量人類玩家,并舉辦了各種級(jí)別和類型的國(guó)際性賽事。2010年起,以AIIDE、SSCAIT、CIG為代表基于星際爭(zhēng)霸I環(huán)境的各類人工智能比賽開始舉辦,阿爾伯塔大學(xué)、斯坦福大學(xué)、Facebook等眾多高校和研究單位投入其中。這期間的人工智能算法一般被稱為經(jīng)典人工智能程序,大多數(shù)基于規(guī)則。這類自主游戲程序可以打敗游戲內(nèi)置程序,但是遠(yuǎn)遠(yuǎn)比不上人類專業(yè)選手,甚至連普通選手也打不過。

    2016年開始,以深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)為主的智能體自主學(xué)習(xí)方法開始應(yīng)用于該領(lǐng)域,此類算法被稱為現(xiàn)代人工智能程序。Deepmind和暴雪聯(lián)合開發(fā)了基于星際爭(zhēng)霸II的深度學(xué)習(xí)研究環(huán)境SC2LE。國(guó)內(nèi)外眾多極具實(shí)力的科研團(tuán)隊(duì)參與其中,國(guó)外有如Deepmind、Facebook、阿爾伯塔大學(xué)、牛津大學(xué)、倫敦大學(xué)等,國(guó)內(nèi)如阿里巴巴、騰訊以及中國(guó)科學(xué)院自動(dòng)化研究所等也進(jìn)行了相關(guān)研究。

    2009年開始,星際爭(zhēng)霸相關(guān)研究成果開始發(fā)表。我們選出有代表性的成果進(jìn)行統(tǒng)計(jì)(詳見表1),并在下一章節(jié)中進(jìn)行分類分析。

    表1 星際爭(zhēng)霸主要研究單位和方法Table 1 The main research groups and methods of StarCraft

    4 研究方法

    本文將相關(guān)領(lǐng)域的研究方法分為基于規(guī)則、經(jīng)典機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)及其它有潛力的發(fā)展方向五類,并將指出這些方法適用于解決哪一類挑戰(zhàn)。

    4.1 基于規(guī)則

    基于規(guī)則的方法用于解決策略學(xué)習(xí)和領(lǐng)域知識(shí)利用的挑戰(zhàn)。這些方法將人類玩家在實(shí)踐中總結(jié)出的規(guī)則編寫成程序,作為自主游戲程序的一個(gè)策略模塊,游戲程序在游戲進(jìn)行時(shí)根據(jù)游戲的情況選擇對(duì)應(yīng)的策略執(zhí)行即可。Certicky M[4]等根據(jù)熟練玩家用建筑物阻擋敵人進(jìn)入的策略編寫了自主游戲程序。提供一個(gè)準(zhǔn)備使用的聲明式解決方案,采用答案集編程(ASP)的范例,使自主游戲程序也具備合理布局建筑物來(lái)阻止敵人進(jìn)入的技能。Weber B[5]等以反應(yīng)性計(jì)劃語(yǔ)言ABL構(gòu)建了在游戲中指揮個(gè)體單位的游戲程序,這種反應(yīng)式規(guī)劃是控制低級(jí)單位命令的合適技術(shù),部分減少了玩家需要控制的個(gè)體單位。

    4.2 經(jīng)典機(jī)器學(xué)習(xí)

    我們將除深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)之外的機(jī)器學(xué)習(xí)方法歸為經(jīng)典機(jī)器學(xué)習(xí)方法。根據(jù)各方法對(duì)應(yīng)解決多尺度規(guī)劃與多層次決策一致性、多途徑策略學(xué)習(xí)、降低不確定性以及領(lǐng)域知識(shí)開發(fā)利用四類挑戰(zhàn),將經(jīng)典機(jī)器學(xué)習(xí)方法分為快速搜索與規(guī)劃、對(duì)手策略建模和作戰(zhàn)模型、降低不確定性、行為知識(shí)提取和利用四類方法。

    4.2.1 快速搜索與規(guī)劃

    規(guī)劃與決策問題主要關(guān)注自主游戲程序不同層次的對(duì)抗策略如何優(yōu)化生成。David C[6]在星際爭(zhēng)霸人工智能競(jìng)賽中使用在線的啟發(fā)式搜索算法,該搜索算法能夠?qū)崟r(shí)生成專業(yè)人類玩家水平的構(gòu)建命令。其為考慮時(shí)長(zhǎng)、持續(xù)時(shí)間、投資組合的貪婪搜索分別設(shè)計(jì)了三種單位微觀管理算法,并將分層投資組合搜索用于搜索巨大的游戲空間。Aha D W[7]等在搜索內(nèi)部空間的遺傳算法以及偏向子計(jì)劃?rùn)z索的加權(quán)算法基礎(chǔ)上改進(jìn),引入一個(gè)計(jì)劃?rùn)z索算法,消除了前兩種方法假設(shè)靜態(tài)對(duì)手的不足,由此可將學(xué)習(xí)的知識(shí)擴(kuò)展到具有完全不同策略的對(duì)手。Zhen J S[8]等使用擴(kuò)展拓?fù)涞纳窠?jīng)進(jìn)化(NEAT)算法,以增強(qiáng)人工智能游戲程序的適應(yīng)性,實(shí)現(xiàn)快速、實(shí)時(shí)評(píng)估和反應(yīng)。

    4.2.2 對(duì)手策略建模和作戰(zhàn)模型

    策略學(xué)習(xí)問題主要關(guān)注如何從回放數(shù)據(jù)中學(xué)到有用的知識(shí)。Weber B G[9]用數(shù)據(jù)挖掘方法從大量的游戲日志中學(xué)習(xí)高水平玩家的策略,并為游戲中的對(duì)手建模,以此在游戲中檢測(cè)對(duì)手策略,預(yù)測(cè)對(duì)手什么時(shí)候執(zhí)行策略并做出行動(dòng)。Uriarte A[10]等從回放數(shù)據(jù)中學(xué)習(xí)作戰(zhàn)模型并用它們來(lái)模擬實(shí)時(shí)策略游戲中的戰(zhàn)斗。

    4.2.3 降低不確定性

    不確定性問題一般可由為對(duì)手建模、為游戲建模的方法來(lái)進(jìn)行預(yù)測(cè),或者使用偵察算法等獲取更多的信息來(lái)降低不確定性。Gabriel S[11]等通過使用貝葉斯建模來(lái)替代布爾值邏輯,處理信息的不完整性和由此產(chǎn)生的不確定性。通過機(jī)器學(xué)習(xí)從高水平玩家的回放數(shù)據(jù)來(lái)對(duì)動(dòng)態(tài)對(duì)手建模,進(jìn)行戰(zhàn)略和戰(zhàn)術(shù)適應(yīng)。這些基于概率的玩家模型可以通過不同的輸入應(yīng)用于決策,由此解決不確定情況下的多尺度決策。Park H[12]使用偵察算法和機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)對(duì)手的攻擊時(shí)機(jī)。Hostetler J[13]等提出動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)策略模型,該模型能夠從現(xiàn)實(shí)的觀察中推斷游戲的未觀察部分。Cho H C[14]通過預(yù)測(cè)對(duì)手的策略改變命令順序。Erickson G[15]提出預(yù)測(cè)游戲中哪個(gè)玩家獲勝的模型。Helmke I[16]等用簡(jiǎn)單的戰(zhàn)斗近似模型預(yù)測(cè)不涉及微觀管理的戰(zhàn)斗。Uriarte A[10]等提出了雙人博弈游戲的戰(zhàn)斗模型,用來(lái)模擬游戲中的戰(zhàn)斗,并分析如何從回放數(shù)據(jù)中學(xué)習(xí)作戰(zhàn)模型。

    4.2.4 行為知識(shí)提取和利用

    領(lǐng)域知識(shí)開發(fā)和利用目的是更好地利用已有的策略知識(shí)和游戲數(shù)據(jù)。Mishra K[17]等提出基于案例的實(shí)時(shí)計(jì)劃和執(zhí)行方法。通過以個(gè)案的形式從專家示范中提取行為知識(shí),將這些知識(shí)通過基于案例的行為生成器調(diào)用形成合適的行為,來(lái)實(shí)現(xiàn)當(dāng)前計(jì)劃中的目標(biāo)。Synnaeve G[18]等主張通過人類或游戲程序玩家對(duì)錄制的游戲完整狀態(tài)進(jìn)行探索,以發(fā)現(xiàn)如何推理策略。他們把軍隊(duì)組合起來(lái),以此減少高斯混合程度,達(dá)到在組的水平上進(jìn)行戰(zhàn)略推理的目的。

    4.3 深度學(xué)習(xí)

    基于深度學(xué)習(xí)的方法用于從當(dāng)前大量的高水平玩家數(shù)據(jù)中學(xué)習(xí)策略,以解決領(lǐng)域知識(shí)開發(fā)利用的挑戰(zhàn)。Sukhbaatar S[19]等提出一種深度神經(jīng)模型CommNet,它通過使多智能體間保持連續(xù)通信來(lái)完成合作任務(wù)。該網(wǎng)絡(luò)模型可使智能體學(xué)習(xí)彼此溝通的能力,相對(duì)于非交互智能體產(chǎn)生了更好的表現(xiàn)。Justesen N[20]等通過深度學(xué)習(xí)直接從游戲回放中學(xué)習(xí)星際爭(zhēng)霸中的宏觀管理決策。從高水平玩家的2005個(gè)回放中提取的789571個(gè)狀態(tài)動(dòng)作來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)下一個(gè)構(gòu)建動(dòng)作。通過將訓(xùn)練好的網(wǎng)絡(luò)整合到一個(gè)開源的星際爭(zhēng)霸自主游戲程序UAlbertaBot中,該系統(tǒng)可以顯著地超越游戲內(nèi)置的自主程序,并以固定的急速策略進(jìn)行對(duì)抗。

    4.4 強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)一般用于解決策略學(xué)習(xí)中的挑戰(zhàn)。我們將使用強(qiáng)化學(xué)習(xí)或深度強(qiáng)化學(xué)習(xí)的方法按照算法內(nèi)容分為Q學(xué)習(xí)及其變體、Actor-Critic結(jié)構(gòu)及其變體以及分布式多智能體強(qiáng)化學(xué)習(xí)三類。

    4.4.1 Q學(xué)習(xí)及其變體

    Stefan W[21]等應(yīng)用Q學(xué)習(xí)和Sarsa算法的變體,使用資格痕跡來(lái)抵消延遲獎(jiǎng)勵(lì)的問題。其設(shè)計(jì)了一個(gè)能夠在復(fù)雜的環(huán)境中以無(wú)監(jiān)督的方式學(xué)習(xí)的智能體,替換非自適應(yīng)的、確定性的游戲人工智能程序來(lái)執(zhí)行任務(wù)。針對(duì)最大化獎(jiǎng)勵(lì)或?qū)W習(xí)速度兩個(gè)不同的側(cè)重點(diǎn),他們證明一步式Q學(xué)習(xí)和Sarsa在學(xué)習(xí)管理戰(zhàn)斗單元方面是最好的。Mnih V[22]等提出深度Q網(wǎng)絡(luò)方法,可以使用端到端的強(qiáng)化學(xué)習(xí)直接從高維視覺輸入中學(xué)習(xí)成功的策略。該方法在Atari游戲上被證明是有效的,這為用深度強(qiáng)化學(xué)習(xí)解決多智能體的游戲提供了思路。Kempka M[23]等在一個(gè)三維第一人稱視角環(huán)境——VizDoom中驗(yàn)證了視覺強(qiáng)化學(xué)習(xí)的可行性。在一個(gè)基本的移動(dòng)及射擊任務(wù)和一個(gè)更復(fù)雜的迷宮導(dǎo)航兩種場(chǎng)景中,使用具有Q學(xué)習(xí)和經(jīng)驗(yàn)回放的深度卷積神經(jīng)網(wǎng)絡(luò),都能夠訓(xùn)練出展現(xiàn)人類行為的自主游戲程序。Usunier N[24]等提出深度神經(jīng)網(wǎng)絡(luò)控制器從游戲引擎給出的原始狀態(tài)特征來(lái)處理微觀管理場(chǎng)景的方法,解決了軍隊(duì)成員在戰(zhàn)斗中短期低水平的控制問題。同時(shí)提出了一個(gè)結(jié)合策略空間直接探索和反向傳播的啟發(fā)式強(qiáng)化學(xué)習(xí)算法,該算法使用確定性策略來(lái)收集學(xué)習(xí)的痕跡,這比 “野獸般的探索”更為有效。

    4.4.2 Actor-Critic結(jié)構(gòu)及其變體

    Peng P[25]等在處理星際爭(zhēng)霸中協(xié)調(diào)多個(gè)戰(zhàn)隊(duì)作戰(zhàn)打敗敵人任務(wù)時(shí),為了保持一個(gè)可擴(kuò)展而有效的通信協(xié)議,引入了一個(gè)多主體雙向協(xié)調(diào)網(wǎng)絡(luò)——BiCNet。該網(wǎng)絡(luò)含有一個(gè)向量化擴(kuò)展的Actor-Critic公式,可以處理對(duì)戰(zhàn)雙方不同類型的任意數(shù)量的智能體的戰(zhàn)斗。在沒有任何監(jiān)督如人類示范或標(biāo)記數(shù)據(jù)的情況下,BiCNet可以學(xué)習(xí)各種經(jīng)驗(yàn)豐富的游戲玩家常用的高級(jí)協(xié)調(diào)策略。Foerster J[26]等提出了一種反事實(shí)多智能體(COMA)策略梯度的多智能體Actor-Critic方法。COMA使用集中的Critic來(lái)估計(jì)Q函數(shù),用分布式的Actor來(lái)優(yōu)化智能體的策略。為了解決多智能體信用分配的挑戰(zhàn),其使用了一個(gè)反事實(shí)的基線,邊際化一個(gè)智能體的行為,同時(shí)保持其他智能體的行為固定。在具有顯著局部可觀的分布式多智能體情況下,COMA方法與其它多智能體Actor-Critic方法中最先進(jìn)的集中控制器最好的表現(xiàn)對(duì)比,發(fā)現(xiàn)其平均性能顯著提高。Vinyals O[27]等介紹了適用于星際爭(zhēng)霸II領(lǐng)域的典型深度強(qiáng)化學(xué)習(xí)智能體的初始基線結(jié)果。在迷你游戲中,這些智能體可以通過學(xué)習(xí)達(dá)到與新手玩家相當(dāng)?shù)挠螒蛩?。但是,在完整游戲的?xùn)練中,這些智能體無(wú)法取得重大進(jìn)展。

    4.4.3 分布式多智能體強(qiáng)化學(xué)習(xí)

    Lanctot M[28]等為解決多智能體強(qiáng)化學(xué)習(xí)(MARL)中使用獨(dú)立強(qiáng)化學(xué)習(xí)(InRL)策略在訓(xùn)練期間可能會(huì)過擬合其他智能體策略的問題,引入了一個(gè)新的度量即聯(lián)合政策關(guān)聯(lián),來(lái)量化這種影響。同時(shí)提出一種通用MARL算法,該算法基于對(duì)深度強(qiáng)化學(xué)習(xí)生成的策略混合的近似最佳響應(yīng)以及經(jīng)驗(yàn)博弈分析來(lái)計(jì)算策略選擇的元策略。Max J[29]等在第一視角多人游戲中采用雙層優(yōu)化的方法。一群獨(dú)立的強(qiáng)化學(xué)習(xí)智能體通過上千種并行游戲以團(tuán)隊(duì)的形式在隨機(jī)產(chǎn)生的環(huán)境中與對(duì)手進(jìn)行博弈。其中這群智能體中每個(gè)個(gè)體學(xué)習(xí)其自己的內(nèi)部獎(jiǎng)勵(lì)以補(bǔ)充來(lái)自獲勝的稀疏延遲獎(jiǎng)勵(lì),并使用新穎的時(shí)間分層表示來(lái)選擇動(dòng)作,使得智能體可以在多時(shí)間尺度進(jìn)行推理。

    4.5 其它有潛力的方向

    (1)子博弈。Brown N[30]等提出用不完美信息博弈中子博弈方法解決分布式博弈和全局目標(biāo)統(tǒng)一的問題。該方法可用于解決多智能體實(shí)時(shí)策略游戲中分布式局部決策與團(tuán)隊(duì)目標(biāo)統(tǒng)一的問題。

    (2)增量學(xué)習(xí)。Xiao C J[31]等提出的增量記憶蒙特卡洛搜索樹方法,為多智能體決策系統(tǒng)通過不斷積累來(lái)提升決策能力提供潛在的可行方向。

    (3)博弈論。Fang F[32]等用博弈論系統(tǒng)預(yù)測(cè)可能的襲擊地點(diǎn),打擊偷獵行為。Tuyls K[33]等讓智能體在非對(duì)稱博弈中找納什均衡?;诓┺恼搶?duì)多智能體博弈游戲分析,或許可以從更高水平的視野找到解決辦法。

    5 相關(guān)資源

    本章介紹與星際爭(zhēng)霸相關(guān)的資源,包括開源研究平臺(tái)、開源數(shù)據(jù)集和人工智能程序競(jìng)賽。

    5.1 開源研究平臺(tái)

    5.1.1 完整星際爭(zhēng)霸學(xué)習(xí)環(huán)境

    (1)SC2LE。Deepmind和暴雪在2017年聯(lián)合推出基于星際爭(zhēng)霸II的人工智能學(xué)習(xí)環(huán)境SC2LE。Lanctot M[28]等描述了星際爭(zhēng)霸II領(lǐng)域的觀察、行動(dòng)和獎(jiǎng)勵(lì)規(guī)范,并提供了一個(gè)開源的基于Python的接口來(lái)與游戲引擎進(jìn)行通信。除了完整的游戲地圖之外,還提供了一套迷你游戲,專注于星際爭(zhēng)霸 II游戲中的不同任務(wù)。

    (2)TorchCraft。Synnaeve G[34]等開發(fā)了TorchCraft,一個(gè)通過在機(jī)器學(xué)習(xí)框架Torch中控制游戲來(lái)實(shí)現(xiàn)諸如“星際爭(zhēng)霸:母巢之戰(zhàn)”等實(shí)時(shí)策略游戲深度學(xué)習(xí)研究的庫(kù)。

    5.1.2 類似的AI學(xué)習(xí)環(huán)境

    (1)輕量級(jí)星際爭(zhēng)霸研究環(huán)境

    ELF。Tian Y[35]等提出一個(gè)覆蓋范圍廣、輕量級(jí)和靈活的基礎(chǔ)強(qiáng)化學(xué)習(xí)研究平臺(tái)——ELF。ELF包含三種游戲環(huán)境(微型實(shí)時(shí)策略、奪旗和塔防)的高度可定制的實(shí)時(shí)策略引擎。其中“微型實(shí)時(shí)策略”作為星際爭(zhēng)霸的微型版本,捕捉了關(guān)鍵的游戲動(dòng)態(tài),可在筆記本電腦上以每秒40K幀速運(yùn)行。該系統(tǒng)與現(xiàn)代強(qiáng)化學(xué)習(xí)方法結(jié)合使用時(shí),可用6個(gè)CPU和1個(gè)GPU的計(jì)算硬件在一天時(shí)間內(nèi)完成端到端的完整游戲的自主游戲程序訓(xùn)練。此外,該平臺(tái)在環(huán)境-智能體通信拓?fù)?、?qiáng)化學(xué)習(xí)方法的選擇、游戲參數(shù)的變化等方面是靈活的,并且可以遷移到現(xiàn)有的基于C/C++的游戲環(huán)境,如ALE。

    美國(guó)紐約大學(xué)和Facebook AI Research設(shè)計(jì)了一個(gè)簡(jiǎn)單的2D游戲環(huán)境,用強(qiáng)化學(xué)習(xí)在該環(huán)境上布署各種神經(jīng)模型,在該環(huán)境中訓(xùn)練的模型可直接應(yīng)用于星際爭(zhēng)霸游戲[36]。

    (2)其它相似研究環(huán)境

    VizDoom。VizDoom是一個(gè)以第一人稱視角多人射擊類3D游戲Doom為基礎(chǔ)、可進(jìn)行以像素信息為輸入的強(qiáng)化學(xué)習(xí)方法研究平臺(tái)。Kempka M[23]等在該環(huán)境中驗(yàn)證了視覺強(qiáng)化學(xué)習(xí)的可行性。在一個(gè)基本的移動(dòng)及射擊任務(wù)和一個(gè)更復(fù)雜的迷宮導(dǎo)航兩種場(chǎng)景中,使用具有Q學(xué)習(xí)和經(jīng)驗(yàn)回放的卷積深度神經(jīng)網(wǎng)絡(luò),都能夠訓(xùn)練出展現(xiàn)人類行為的有能力的自主游戲程序。

    ALE。Naddaf Y[37]介紹了街機(jī)游戲?qū)W習(xí)環(huán)境——ALE。ALE為數(shù)百個(gè)Atari 2600游戲環(huán)境提供界面,并為評(píng)估和比較強(qiáng)化學(xué)習(xí)、模型學(xué)習(xí)、基于模型的規(guī)劃、模仿學(xué)習(xí)、遷移學(xué)習(xí)等方法提供了一個(gè)嚴(yán)格的測(cè)試平臺(tái)。ALE提供的評(píng)估方法可以在超過55個(gè)不同的游戲中報(bào)告驗(yàn)證結(jié)果。

    Gym。由OpenAI開發(fā)的強(qiáng)化學(xué)習(xí)研究環(huán)境和工具包[38]。

    Minecraft。微軟開發(fā)了基于Minecraft(我的世界)游戲的人工智能研究平臺(tái)[39]。

    另外,還有如Deepmind的Psychalab心理學(xué)實(shí)驗(yàn)室開發(fā)的第一人稱視角3D強(qiáng)化學(xué)習(xí)研究環(huán)境等。

    5.2 開源數(shù)據(jù)集

    5.2.1 基于星際爭(zhēng)霸II的數(shù)據(jù)集

    SC2LE。Deepmind和暴雪在推出基于星際爭(zhēng)霸II的人工智能深度學(xué)習(xí)研究環(huán)境SC2LE的同時(shí),對(duì)于完整的游戲地圖,還提供了來(lái)自人類專業(yè)玩家的游戲回放數(shù)據(jù)集,并給出從該數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)游戲結(jié)果和玩家行為的初始基線結(jié)果。

    MSC。中科院自動(dòng)化所的張俊格等發(fā)布了基于SC2LE平臺(tái)的新型數(shù)據(jù)集MSC[40]。MSC由良好設(shè)計(jì)的特征向量、預(yù)定義的高水平行動(dòng)和每個(gè)匹配的最終結(jié)果組成。為便于評(píng)估和比較,他們還將MSC劃分為訓(xùn)練、驗(yàn)證和測(cè)試集。除了數(shù)據(jù)集之外,他們還提出了基線模型,并提出了全局狀態(tài)評(píng)估的初始基線結(jié)果,構(gòu)建了命令預(yù)測(cè)。為了對(duì)星際爭(zhēng)霸II的宏觀管理進(jìn)行研究,還介紹了數(shù)據(jù)集的各種下游任務(wù)和分析。

    5.2.2 基于星際爭(zhēng)霸I的數(shù)據(jù)集

    Facebook的Lin Z[41]等開發(fā)了基于星際爭(zhēng)霸I的數(shù)據(jù)集。Synnaeve G[18]等提供了包含大部分游戲狀態(tài)(不僅是玩家的命令)的星際爭(zhēng)霸游戲數(shù)據(jù)集。Alberto Uriarte開發(fā)了持續(xù)更新的基于星際爭(zhēng)霸I的高水平玩家離線數(shù)據(jù)集。

    5.3 競(jìng)賽

    5.3.1 AIIDE

    AAAI人工智能和互動(dòng)數(shù)字娛樂會(huì)議(AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment,AIIDE)[42]由人工智能促進(jìn)協(xié)會(huì)(AAAI)贊助,每年舉行一次。會(huì)議展示關(guān)于娛樂中智能系統(tǒng)建模、開發(fā)和評(píng)估的跨學(xué)科研究,重點(diǎn)關(guān)注商業(yè)計(jì)算機(jī)和視頻游戲。該會(huì)議長(zhǎng)期以來(lái)一直以電腦游戲中的人工智能研究為特色,并發(fā)展到游戲以外的娛樂領(lǐng)域,會(huì)議上舉行星際爭(zhēng)霸人工智能自主游戲程序競(jìng)賽。會(huì)議從2005年開始,已經(jīng)舉辦了14屆。

    5.3.2 CIG

    IEEE計(jì)算智能與游戲大會(huì)(IEEE Conference on Computational Intelligence and Games,CIG)[43]是將計(jì)算和人工智能技術(shù)應(yīng)用于游戲的年度盛會(huì)。會(huì)議的領(lǐng)域包括適用于各種游戲的各種計(jì)算智能和人工智能,包括棋盤游戲、視頻游戲和數(shù)學(xué)游戲。于2005年開始作為研討會(huì),自2009年開始作為會(huì)議,每年召開一次。該會(huì)議上進(jìn)行星際爭(zhēng)霸人工智能自主游戲程序比賽。

    5.3.3 SSCAIT

    學(xué)生星際爭(zhēng)霸AI錦標(biāo)賽(Student Starcraft AI Tournament & Ladder)[44]是一項(xiàng)教育活動(dòng),于2011年首次舉辦,是主要面向?qū)W生(非學(xué)生也允許提交)人工智能和計(jì)算機(jī)科學(xué)的競(jìng)賽。通過使用BWAPI提交用C++或Java編程的自主游戲程序來(lái)進(jìn)行一對(duì)一星際爭(zhēng)霸游戲。

    6 未來(lái)研究趨勢(shì)

    非完美信息下的多智能體博弈研究是當(dāng)前眾多人工智能研究團(tuán)隊(duì)努力攻克的難題,雖然有新的成果不斷產(chǎn)生,但直到目前,完整游戲情況下,人工智能游戲程序仍無(wú)法達(dá)到人類高水平玩家的水平。為了達(dá)成這一目標(biāo),除了文章前述的研究方法之外,一些研究者將注意力放在多智能體分布式?jīng)Q策上。分層和分任務(wù)決策對(duì)星際爭(zhēng)霸來(lái)說(shuō)可能是一種發(fā)展方向,通過將對(duì)抗任務(wù)分不同的層次和拆分成不同的任務(wù)模塊,在小的任務(wù)范圍內(nèi)進(jìn)行學(xué)習(xí),最終將這些模塊整合成一個(gè)完整的人工智能游戲程序。另外,將博弈論作為對(duì)抗分析的指導(dǎo)方法,會(huì)給該領(lǐng)域帶來(lái)新的解決思路。除此之外,模仿學(xué)習(xí)、遷移學(xué)習(xí)以及增量式學(xué)習(xí)也可能在該領(lǐng)域展現(xiàn)出好的效果。

    多智能體對(duì)抗博弈策略在一些實(shí)際領(lǐng)域具有應(yīng)用價(jià)值。其中簡(jiǎn)單任務(wù)應(yīng)用如追捕任務(wù),即多機(jī)器人協(xié)同追捕“逃跑者”機(jī)器人。與之類似,有多機(jī)器人協(xié)同阻止入侵者的“疆土防御”任務(wù)。機(jī)器人足球是更高水平的復(fù)雜任務(wù),各足球機(jī)器人需要團(tuán)隊(duì)協(xié)作采取策略與對(duì)手機(jī)器人團(tuán)隊(duì)進(jìn)行對(duì)抗,防守好自己的球門并盡可能多地進(jìn)球得分。值得注意的是,當(dāng)前多智能體對(duì)抗博弈策略研究在軍事領(lǐng)域受到重點(diǎn)關(guān)注。以美國(guó)軍方為例,其連續(xù)幾年發(fā)布的無(wú)人系統(tǒng)路線圖均將多無(wú)人系統(tǒng)在戰(zhàn)場(chǎng)中的協(xié)作作戰(zhàn)列為重點(diǎn)發(fā)展方向,并進(jìn)行了多項(xiàng)以多機(jī)器人系統(tǒng)或集群作戰(zhàn)為內(nèi)容的軍事研究項(xiàng)目。另外,俄羅斯軍方已將多無(wú)人系統(tǒng)應(yīng)用于實(shí)際戰(zhàn)場(chǎng)。

    目前,多智能體博弈游戲仍是一個(gè)開放的難題,人工智能游戲程序還無(wú)法超越人類頂級(jí)玩家的水平。隨著人工智能技術(shù)的快速發(fā)展以及越來(lái)越多科研團(tuán)隊(duì)投入其中,該領(lǐng)域?qū)?huì)有更多更震撼的成果陸續(xù)產(chǎn)生。

    猜你喜歡
    程序人工智能智能
    試論我國(guó)未決羈押程序的立法完善
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    人工智能與就業(yè)
    “程序猿”的生活什么樣
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    英國(guó)與歐盟正式啟動(dòng)“離婚”程序程序
    99精品久久久久人妻精品| 好男人在线观看高清免费视频| 国内精品久久久久久久电影| 真人做人爱边吃奶动态| 亚洲人成网站在线播放欧美日韩| 在线观看一区二区三区| 中文字幕熟女人妻在线| 亚洲最大成人手机在线| 国产色爽女视频免费观看| 成人国产综合亚洲| 人人妻人人看人人澡| 一级黄片播放器| 又黄又爽又刺激的免费视频.| 日本熟妇午夜| 少妇丰满av| 听说在线观看完整版免费高清| 99在线视频只有这里精品首页| 亚洲图色成人| 网址你懂的国产日韩在线| 久久人人精品亚洲av| 有码 亚洲区| 久久久久九九精品影院| 在线播放国产精品三级| 波野结衣二区三区在线| 国产主播在线观看一区二区| 天天躁日日操中文字幕| 人妻久久中文字幕网| 看黄色毛片网站| 亚洲中文字幕日韩| 日韩欧美三级三区| 日本欧美国产在线视频| 联通29元200g的流量卡| ponron亚洲| 波多野结衣高清作品| 国产成人影院久久av| 亚洲国产精品久久男人天堂| 91狼人影院| 亚洲精品亚洲一区二区| 听说在线观看完整版免费高清| 日韩 亚洲 欧美在线| 免费在线观看日本一区| 久久热精品热| 嫩草影院精品99| 51国产日韩欧美| 中文字幕久久专区| 日韩一本色道免费dvd| 国产欧美日韩精品亚洲av| 毛片女人毛片| 国产在线精品亚洲第一网站| 两个人的视频大全免费| 精品久久国产蜜桃| 久久久久性生活片| 欧美激情国产日韩精品一区| 国产不卡一卡二| 免费观看人在逋| 非洲黑人性xxxx精品又粗又长| 亚洲欧美日韩高清在线视频| 欧美一区二区精品小视频在线| 国产高清视频在线观看网站| 简卡轻食公司| 免费观看精品视频网站| 久久精品人妻少妇| 美女xxoo啪啪120秒动态图| 亚洲成人久久爱视频| 欧美潮喷喷水| 嫩草影视91久久| 麻豆国产97在线/欧美| 1024手机看黄色片| 国产色婷婷99| 欧美区成人在线视频| 自拍偷自拍亚洲精品老妇| 噜噜噜噜噜久久久久久91| 国产精品美女特级片免费视频播放器| 尾随美女入室| 国产av在哪里看| 极品教师在线免费播放| 男人狂女人下面高潮的视频| 国产免费男女视频| 12—13女人毛片做爰片一| 色综合亚洲欧美另类图片| 性插视频无遮挡在线免费观看| 欧美高清性xxxxhd video| 亚洲av五月六月丁香网| 亚州av有码| 在现免费观看毛片| 免费av观看视频| 久久精品人妻少妇| 成人午夜高清在线视频| 直男gayav资源| 在线观看66精品国产| 国产精品久久久久久精品电影| 久久亚洲真实| 成人综合一区亚洲| 日本五十路高清| 国内毛片毛片毛片毛片毛片| 久久久久精品国产欧美久久久| 亚洲人成网站在线播放欧美日韩| 国产一区二区亚洲精品在线观看| 一级av片app| 欧美激情久久久久久爽电影| 日韩欧美三级三区| 国内精品久久久久久久电影| 国产白丝娇喘喷水9色精品| 久久精品夜夜夜夜夜久久蜜豆| 久久亚洲真实| 窝窝影院91人妻| 此物有八面人人有两片| 69av精品久久久久久| 国产精品久久电影中文字幕| 欧美日韩黄片免| 少妇的逼好多水| 狂野欧美白嫩少妇大欣赏| 91在线观看av| 久久精品国产自在天天线| 一个人观看的视频www高清免费观看| 亚洲美女搞黄在线观看 | 熟妇人妻久久中文字幕3abv| 搡女人真爽免费视频火全软件 | 别揉我奶头~嗯~啊~动态视频| 成人欧美大片| av国产免费在线观看| 免费人成视频x8x8入口观看| 天堂网av新在线| 国产高清视频在线播放一区| 高清日韩中文字幕在线| 久久精品夜夜夜夜夜久久蜜豆| 午夜老司机福利剧场| 99热这里只有是精品50| 久久欧美精品欧美久久欧美| 欧美日韩乱码在线| 亚洲国产精品久久男人天堂| 中文字幕av成人在线电影| 乱人视频在线观看| 欧美中文日本在线观看视频| h日本视频在线播放| 国产91精品成人一区二区三区| 久久久色成人| 欧美激情国产日韩精品一区| 他把我摸到了高潮在线观看| 99热6这里只有精品| 成人永久免费在线观看视频| 一进一出好大好爽视频| 亚洲人成伊人成综合网2020| 日本成人三级电影网站| 亚洲精品国产成人久久av| 麻豆av噜噜一区二区三区| 黄色配什么色好看| 欧美精品国产亚洲| 久久草成人影院| 色综合色国产| 精品久久国产蜜桃| 日本三级黄在线观看| 久久精品91蜜桃| 国产精品日韩av在线免费观看| 麻豆精品久久久久久蜜桃| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲一级一片aⅴ在线观看| 麻豆成人午夜福利视频| 亚洲av五月六月丁香网| 国产成人福利小说| 99热这里只有精品一区| 日韩精品青青久久久久久| 日本a在线网址| 日本三级黄在线观看| 一区二区三区激情视频| 国产成人福利小说| 国产久久久一区二区三区| 国产精品久久久久久久电影| 国产精品女同一区二区软件 | 美女黄网站色视频| 女人被狂操c到高潮| 亚洲经典国产精华液单| 国产一区二区三区在线臀色熟女| 国产 一区 欧美 日韩| ponron亚洲| 日本a在线网址| 久久国产精品人妻蜜桃| 亚洲精品成人久久久久久| a在线观看视频网站| 成人欧美大片| 一进一出好大好爽视频| 可以在线观看的亚洲视频| 国产免费男女视频| 女生性感内裤真人,穿戴方法视频| 久久久国产成人精品二区| 女同久久另类99精品国产91| 色综合站精品国产| 中文字幕人妻熟人妻熟丝袜美| 亚洲 国产 在线| 欧美在线一区亚洲| 色综合婷婷激情| 亚洲美女视频黄频| 久久99热6这里只有精品| 国产高清不卡午夜福利| 在线观看美女被高潮喷水网站| 直男gayav资源| 国产乱人视频| 男插女下体视频免费在线播放| 国产亚洲精品综合一区在线观看| 免费电影在线观看免费观看| 免费看日本二区| 亚洲中文字幕日韩| 最近中文字幕高清免费大全6 | 黄片wwwwww| 亚洲精品久久国产高清桃花| 国产免费男女视频| 成年女人永久免费观看视频| 老女人水多毛片| 神马国产精品三级电影在线观看| 春色校园在线视频观看| 欧美人与善性xxx| 高清日韩中文字幕在线| 老司机福利观看| 色哟哟哟哟哟哟| 狠狠狠狠99中文字幕| 精品一区二区三区av网在线观看| 久久国产乱子免费精品| 简卡轻食公司| 在线天堂最新版资源| 我要看日韩黄色一级片| 精品久久久噜噜| 亚洲精品日韩av片在线观看| 亚洲人与动物交配视频| 久久精品91蜜桃| 制服丝袜大香蕉在线| 最近最新中文字幕大全电影3| av天堂在线播放| 亚洲精品久久国产高清桃花| 亚洲欧美日韩东京热| 亚洲精品色激情综合| 免费看av在线观看网站| 精品一区二区三区视频在线观看免费| 亚洲黑人精品在线| 亚洲无线观看免费| 欧美黑人欧美精品刺激| 九九爱精品视频在线观看| 国产精品综合久久久久久久免费| 天天躁日日操中文字幕| 搞女人的毛片| 综合色av麻豆| 成人综合一区亚洲| 色吧在线观看| 蜜桃久久精品国产亚洲av| 男人舔奶头视频| 一边摸一边抽搐一进一小说| 久久久久国产精品人妻aⅴ院| 亚洲内射少妇av| 国产精品久久电影中文字幕| 亚洲乱码一区二区免费版| 一边摸一边抽搐一进一小说| 国产精品国产高清国产av| 少妇的逼好多水| 免费黄网站久久成人精品| 在线观看av片永久免费下载| 一个人看的www免费观看视频| 在线观看一区二区三区| 亚洲成人久久爱视频| av天堂中文字幕网| 丝袜美腿在线中文| 特级一级黄色大片| 国产国拍精品亚洲av在线观看| 亚洲av不卡在线观看| 91久久精品电影网| 毛片一级片免费看久久久久 | 久久精品国产清高在天天线| 婷婷丁香在线五月| 国产精品无大码| 久久久色成人| 小说图片视频综合网站| 亚洲黑人精品在线| 特级一级黄色大片| 欧美性猛交╳xxx乱大交人| 亚洲在线自拍视频| 黄色女人牲交| 免费黄网站久久成人精品| 人人妻,人人澡人人爽秒播| 高清毛片免费观看视频网站| 亚洲色图av天堂| 欧美性猛交╳xxx乱大交人| 成人综合一区亚洲| 深夜精品福利| 午夜久久久久精精品| 搡老岳熟女国产| 美女 人体艺术 gogo| 国产亚洲精品久久久久久毛片| 观看美女的网站| 欧美潮喷喷水| 亚洲熟妇熟女久久| av在线老鸭窝| 高清日韩中文字幕在线| 在线播放国产精品三级| 亚洲美女视频黄频| 国产精品久久电影中文字幕| 国产不卡一卡二| 在线看三级毛片| 身体一侧抽搐| 成年人黄色毛片网站| 白带黄色成豆腐渣| 成人午夜高清在线视频| 成人永久免费在线观看视频| 琪琪午夜伦伦电影理论片6080| 国产高清三级在线| 国产精品国产三级国产av玫瑰| 国产精品久久电影中文字幕| 欧美bdsm另类| 91麻豆av在线| 美女大奶头视频| 很黄的视频免费| 国产精品一区二区性色av| 精品久久久久久久末码| 特级一级黄色大片| 天美传媒精品一区二区| av在线亚洲专区| 国产一区二区在线av高清观看| 99久久成人亚洲精品观看| 18禁黄网站禁片免费观看直播| 热99re8久久精品国产| 日本黄色视频三级网站网址| 最后的刺客免费高清国语| 伦理电影大哥的女人| 超碰av人人做人人爽久久| 少妇的逼水好多| 亚洲自偷自拍三级| 精品久久久久久久久久免费视频| 久久久久久久久久黄片| 久久国产精品人妻蜜桃| 精品乱码久久久久久99久播| 久久国产精品人妻蜜桃| 99热只有精品国产| 精品久久久久久久久久免费视频| 五月玫瑰六月丁香| 欧美一级a爱片免费观看看| 91麻豆精品激情在线观看国产| 九九爱精品视频在线观看| 精华霜和精华液先用哪个| 亚洲人成伊人成综合网2020| 精品人妻1区二区| 可以在线观看的亚洲视频| 1000部很黄的大片| 麻豆成人午夜福利视频| 午夜福利高清视频| 可以在线观看的亚洲视频| 1000部很黄的大片| 乱系列少妇在线播放| 三级国产精品欧美在线观看| 午夜福利视频1000在线观看| 不卡一级毛片| 日韩亚洲欧美综合| 1000部很黄的大片| 亚洲成人久久爱视频| 免费在线观看影片大全网站| 给我免费播放毛片高清在线观看| 欧美三级亚洲精品| 99久久精品国产国产毛片| 国产精品亚洲一级av第二区| 午夜免费激情av| 小说图片视频综合网站| 春色校园在线视频观看| 亚洲一区二区三区色噜噜| 久久国内精品自在自线图片| 亚洲第一区二区三区不卡| 免费人成视频x8x8入口观看| 亚洲专区国产一区二区| 国产成人影院久久av| 在线观看免费视频日本深夜| 久久国内精品自在自线图片| 悠悠久久av| 国产欧美日韩一区二区精品| 午夜福利高清视频| 亚洲人成伊人成综合网2020| 亚洲自拍偷在线| 色视频www国产| 免费看a级黄色片| 久久精品国产亚洲网站| 欧美日本亚洲视频在线播放| 国产精品伦人一区二区| eeuss影院久久| 国产v大片淫在线免费观看| 一级a爱片免费观看的视频| 成人鲁丝片一二三区免费| av在线观看视频网站免费| xxxwww97欧美| 少妇人妻一区二区三区视频| 极品教师在线视频| 一区福利在线观看| av黄色大香蕉| 国产成年人精品一区二区| 久久久精品大字幕| 琪琪午夜伦伦电影理论片6080| 精品久久久久久久人妻蜜臀av| 男女边吃奶边做爰视频| 亚洲午夜理论影院| 国产黄色小视频在线观看| 欧美绝顶高潮抽搐喷水| 亚洲av熟女| 婷婷亚洲欧美| a在线观看视频网站| av.在线天堂| 一本一本综合久久| 成人国产一区最新在线观看| 亚洲一区高清亚洲精品| 国产 一区精品| 老司机福利观看| 久久亚洲精品不卡| 国产又黄又爽又无遮挡在线| 亚洲自偷自拍三级| 午夜视频国产福利| 99九九线精品视频在线观看视频| 日韩国内少妇激情av| 亚洲欧美日韩卡通动漫| 婷婷精品国产亚洲av| 中国美女看黄片| 日本熟妇午夜| 美女xxoo啪啪120秒动态图| 色综合婷婷激情| 国内毛片毛片毛片毛片毛片| 亚洲av五月六月丁香网| 男插女下体视频免费在线播放| 国产一区二区三区视频了| 日韩亚洲欧美综合| 人人妻,人人澡人人爽秒播| 啦啦啦啦在线视频资源| 亚洲美女视频黄频| 精品久久久噜噜| 国国产精品蜜臀av免费| 在线观看舔阴道视频| 搡老妇女老女人老熟妇| 国产高清不卡午夜福利| 麻豆成人午夜福利视频| 国产精品福利在线免费观看| 精品99又大又爽又粗少妇毛片 | 日韩一区二区视频免费看| 亚洲无线在线观看| 欧美精品啪啪一区二区三区| www.www免费av| 亚洲第一区二区三区不卡| 成人性生交大片免费视频hd| 亚洲精品一区av在线观看| 亚洲精品456在线播放app | 99热精品在线国产| 欧美性感艳星| 亚洲色图av天堂| 午夜免费激情av| 99久久久亚洲精品蜜臀av| 亚洲人与动物交配视频| 日本 欧美在线| 亚洲中文字幕日韩| 三级毛片av免费| 国产午夜精品久久久久久一区二区三区 | 乱人视频在线观看| 成年版毛片免费区| 真人一进一出gif抽搐免费| 一进一出抽搐gif免费好疼| 在线免费十八禁| 欧美+亚洲+日韩+国产| 又爽又黄无遮挡网站| 美女大奶头视频| 高清在线国产一区| 国产av不卡久久| 91在线观看av| 最近最新免费中文字幕在线| 两个人的视频大全免费| 亚洲一区高清亚洲精品| 他把我摸到了高潮在线观看| av专区在线播放| 我要搜黄色片| 99视频精品全部免费 在线| 日韩亚洲欧美综合| 午夜福利18| 久久精品国产鲁丝片午夜精品 | 国产午夜精品论理片| 99久久无色码亚洲精品果冻| 麻豆久久精品国产亚洲av| 日本撒尿小便嘘嘘汇集6| 国产不卡一卡二| 亚洲人成网站高清观看| 嫩草影院精品99| 白带黄色成豆腐渣| 麻豆国产av国片精品| 自拍偷自拍亚洲精品老妇| 欧洲精品卡2卡3卡4卡5卡区| 变态另类丝袜制服| 特级一级黄色大片| 男人的好看免费观看在线视频| 悠悠久久av| 干丝袜人妻中文字幕| 草草在线视频免费看| 久久久精品大字幕| 我要搜黄色片| 日韩中文字幕欧美一区二区| 99热6这里只有精品| avwww免费| 精品一区二区三区av网在线观看| 深爱激情五月婷婷| 国产精品亚洲一级av第二区| 国产成人av教育| 在线观看一区二区三区| 精品国内亚洲2022精品成人| 大又大粗又爽又黄少妇毛片口| 中文字幕熟女人妻在线| .国产精品久久| 久99久视频精品免费| 国产男靠女视频免费网站| 别揉我奶头 嗯啊视频| 哪里可以看免费的av片| 特级一级黄色大片| 99久久精品国产国产毛片| av在线观看视频网站免费| 久久久久久久久久久丰满 | 老师上课跳d突然被开到最大视频| 欧美一区二区国产精品久久精品| 伦理电影大哥的女人| 久9热在线精品视频| 日本与韩国留学比较| 99久久成人亚洲精品观看| a级毛片免费高清观看在线播放| 成人国产综合亚洲| 成人av在线播放网站| 亚洲精品成人久久久久久| 成人美女网站在线观看视频| 欧美一区二区亚洲| 日韩中文字幕欧美一区二区| 日本爱情动作片www.在线观看 | 国产精品一区二区三区四区免费观看 | 欧美色视频一区免费| 久久人人精品亚洲av| 级片在线观看| 国产精品精品国产色婷婷| av天堂中文字幕网| 在线免费观看不下载黄p国产 | 成人综合一区亚洲| 日日干狠狠操夜夜爽| 亚洲中文字幕一区二区三区有码在线看| 成年免费大片在线观看| 久久精品国产清高在天天线| 尾随美女入室| 久久国内精品自在自线图片| 深夜a级毛片| 亚洲在线观看片| 免费观看人在逋| 999久久久精品免费观看国产| 成年免费大片在线观看| 亚州av有码| 久久精品国产亚洲av涩爱 | 丝袜美腿在线中文| 日韩人妻高清精品专区| 日本在线视频免费播放| 嫩草影院精品99| 国产熟女欧美一区二区| 又爽又黄无遮挡网站| 波多野结衣高清作品| 人妻制服诱惑在线中文字幕| 99精品久久久久人妻精品| 一区福利在线观看| 人人妻人人看人人澡| 成人无遮挡网站| 亚洲真实伦在线观看| 十八禁国产超污无遮挡网站| 我要搜黄色片| 国产女主播在线喷水免费视频网站 | 99久久成人亚洲精品观看| 最近视频中文字幕2019在线8| 麻豆成人av在线观看| 国内精品久久久久久久电影| 美女黄网站色视频| 不卡视频在线观看欧美| 国产淫片久久久久久久久| 日本 av在线| 亚洲午夜理论影院| 国产亚洲精品久久久com| av国产免费在线观看| 日日摸夜夜添夜夜添小说| 天天躁日日操中文字幕| 国产av在哪里看| 亚洲人成网站高清观看| av视频在线观看入口| 男女啪啪激烈高潮av片| 国内久久婷婷六月综合欲色啪| 最近视频中文字幕2019在线8| 一区二区三区激情视频| 特大巨黑吊av在线直播| 麻豆国产97在线/欧美| av福利片在线观看| 欧美丝袜亚洲另类 | 联通29元200g的流量卡| 久久亚洲真实| 人人妻人人澡欧美一区二区| 亚洲欧美日韩高清在线视频| 99久久无色码亚洲精品果冻| 国产av在哪里看| 午夜精品一区二区三区免费看| av视频在线观看入口| 男女啪啪激烈高潮av片| 老女人水多毛片| 亚洲av熟女| 日日啪夜夜撸| 欧美一级a爱片免费观看看| 啪啪无遮挡十八禁网站| 国产男靠女视频免费网站| 亚洲欧美日韩高清在线视频| 久久亚洲真实| 亚洲美女黄片视频| 美女被艹到高潮喷水动态| videossex国产| 日韩欧美精品v在线| 成人一区二区视频在线观看| 嫩草影院入口| 国产午夜精品久久久久久一区二区三区 | 成熟少妇高潮喷水视频| 色综合站精品国产| 日本黄色视频三级网站网址| 欧美极品一区二区三区四区| 中文字幕熟女人妻在线| 我的老师免费观看完整版| 色尼玛亚洲综合影院|