賈保柱 鐘正一 衛(wèi)寒澤 劉榮榮 王群
摘要:通過自主學(xué)習(xí)和進(jìn)化演變,通用型智能體能夠在幾乎沒有領(lǐng)域相關(guān)知識的狀態(tài)下適應(yīng)不同的場景。其中的挑戰(zhàn)之一就是如何設(shè)計一種通用方法從場景中捕捉該場景的狀態(tài)特征。本文提出了一種進(jìn)化策略,通過采用遺傳編程直接從原始圖像中演化出狀態(tài)特征,進(jìn)而使用投票機(jī)制決定智能體的行為。
關(guān)鍵詞:通用型人工智能,遺傳編程,圖像內(nèi)容
Through autonomous learning and evolution, the general purpose intelligent agent is able to adapt to different environments with little domain knowledge. One of the greatest challenges is to develop a general approach for extracting state features out of different scenes. We introduced a new method which uses genetic programming to evolve state features from raw images. A voting method is involved to determine the behavioral strategy of the agent.
Keywords: General artificial intelligence, Genetic programming, Image Content
1. 背景
近些年來,人工智能得到了爆發(fā)式的發(fā)展。尤其是在醫(yī)學(xué)圖像領(lǐng)域,人工智能在某些細(xì)分方向上已經(jīng)達(dá)到或者超越了人類的表現(xiàn)。例如,Diego Ardila 等人[1] 在2019年提出了一種用于識別肺部腫瘤CT掃描的深度學(xué)習(xí)模型。該模型在肺癌篩查實驗中的準(zhǔn)確率達(dá)到了94.4%,已經(jīng)優(yōu)于與團(tuán)隊合作的六名資深放射科醫(yī)生的判斷準(zhǔn)確度。與此同時,有大量研究成果也表明,最先進(jìn)的人工智能模型在眼科的臨床診斷和分析能力上均高于中等水平的眼科專家 [2, 3]。然而,不容忽視的是,這些模型都是針對某些特定應(yīng)用領(lǐng)域而專門設(shè)計的。也就是說,在一個應(yīng)用場景內(nèi)訓(xùn)練得到的模型是無法在另一場景中使用的。為解決這一難題,研究人員提出了多種思路,其中通用型人工智能這一方向逐漸成為諸多學(xué)者競相追逐的熱點。
2. 相關(guān)研究
自2005年起,AAAI每年都會組織通用型人工智能游戲比賽。蒙特卡洛樹搜索(Mento-Carol Tree Search)很早就在通用游戲?qū)模℅eneral Game Playing)中證明它具有強(qiáng)大的搜索能力。
Naddaf 等在Atari 2600 主機(jī)游戲中引入了兩個無模型的 AI 智能體。一個智能體使用強(qiáng)化學(xué)習(xí),另一個使用蒙特卡羅搜索樹。2015 年,DeepMind在視頻游戲Atari 2600 中使用了Deep Q-Network。這種新型網(wǎng)絡(luò)結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),在多項游戲測試中都達(dá)到了人類玩家的智能程度。2016年,DeepMind創(chuàng)造的AlphaGo擊敗了頂級圍棋選手李世石。本文主要從自主學(xué)習(xí)角度出發(fā),利用遺傳策略訓(xùn)練了一個可以自主學(xué)習(xí)游戲特征表示的方法。
3. 內(nèi)容
3.1應(yīng)用場景介紹
基于GVG-AI 的游戲引擎能夠?qū)崿F(xiàn)多項類似 Atari 2600 的游戲。我們使用由該引擎驅(qū)動的三款不同的游戲來測試我們的視頻游戲智能體,分別是太空入侵者、青蛙和導(dǎo)彈司令部。太空侵略者是一款經(jīng)典的街機(jī)游戲。外星人駕駛太空船從屏幕上方向下入侵。玩家控制屏幕底部的一把槍。槍口垂直向上射擊抵御入侵的太空船;游戲蛙是一款經(jīng)典游戲。屏幕中有一只青蛙在過馬路。玩家將青蛙從屏幕底部移動到位于屏幕頂部的目標(biāo)位置即可獲勝。玩家的任務(wù)是保證青蛙在過馬路時必須時刻注意不被往來的汽車撞到;在導(dǎo)彈司令部游戲中,玩家需要使用智能炸彈來摧毀來襲的彈道導(dǎo)彈。玩家決定下一個智能炸彈將在什么位置爆炸。智能炸彈會摧毀一定半徑內(nèi)的所有來襲的導(dǎo)彈。
4. 應(yīng)用場景的狀態(tài)特征提取
4.1場景的狀態(tài)特征的進(jìn)化
我們用樹結(jié)構(gòu)表征一個遺傳編程對象,并用ECJ 包實現(xiàn)了遺傳編程算法。游戲引擎通過 TCP/IP 協(xié)議與 ECJ 通信,將每一步的屏幕截圖發(fā)送到 ECJ,經(jīng)程序計算后,將下一步需要進(jìn)行的動作返回給游戲引擎。
表 1 展示的是本文中用到的終端集合。所有終端返回的都是 Image 類型的對象。每個終端的返回值對應(yīng)了游戲畫面截圖的一個通道:紅色通道、綠色通道、藍(lán)色通道、黃色通道和灰色通道。其中紅、綠、藍(lán)通道可以從屏幕截圖中直接獲得,黃色和灰色通道由紅、綠、藍(lán)三個通道計算得到。
4.2 行動投票機(jī)制
本文中,遺傳編程搜索樹的輸出是一個與輸入圖像大小相同的圖像。我們在輸出結(jié)果中搜索最大值 (Vmax) 和最小值 (Vmin) 的位置。最大值對應(yīng)的點被標(biāo)為游戲的目標(biāo)位置。最小值對應(yīng)的點被標(biāo)為對游戲玩家角色的潛在威脅的位置。智能體的行為由兩個方面決定:第一,它應(yīng)該始終朝著目標(biāo)前進(jìn);同時,它還應(yīng)該密切關(guān)注潛在威脅。一旦潛在威脅進(jìn)入玩家角色周圍的某個區(qū)域,智能體就會發(fā)出使玩家角色遠(yuǎn)離威脅的指令。
5. 結(jié)果
圖1展示的是用于提取青蛙游戲中的狀態(tài)特征的搜索樹結(jié)構(gòu)。輸入圖像是屏幕截圖經(jīng)等比例縮小后得到的。搜索樹的返回值也是一個圖像,如圖2所示。我們在返回的圖像中搜索最大值和最小值,然后將這兩個值對應(yīng)的點疊加在原始屏幕截圖上。最大值用綠色矩形標(biāo)記,最小值用紅色矩形標(biāo)記。在圖中,我們可以看到具有最大值的點是青蛙期望的家的位置。具有最小值的點是對青蛙最危險的汽車所在的位置。 圖 3展示的是三款游戲中最佳個體的適應(yīng)度。針對每款游戲,我們進(jìn)行10 次測試。每個游戲的最佳個體的平均適應(yīng)度以粗線顯示。
6. 結(jié)論
在本文中,我們使用遺傳編程技術(shù)訓(xùn)練了一個智能體,可以直接從原始圖像中學(xué)習(xí)場景的狀態(tài)特征。遺傳編程智能體的輸入是當(dāng)前游戲狀態(tài)截圖的各顏色通道,通過計算輸出一個二維特征矩陣。在該特征矩陣中,最大響應(yīng)點和最小響應(yīng)點分別對應(yīng)了期望的目標(biāo)位置和可能存在威脅的位置。算法采用投票機(jī)制最終確定智能體下一步的規(guī)劃。我們在三個不同的場景中對本文所提出的算法進(jìn)行了測試。結(jié)果表明,與使用人工提取特征的算法相比,該算法能夠更快地找到最優(yōu)的策略。
參考文獻(xiàn)
1. Ardila D, Kiraly AP, Bharadwaj S, Choi B, Reicher JJ, Peng L, Tse D, Etemadi M, Ye W, Corrado G, Naidich DP, Shetty S. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography. Nat Med. 2019 Jun;25(6):954-961.
2. Ting DSW, Pasquale LR, Peng L, Campbell JP, Lee AY, Raman R, Tan GSW, Schmetterer L, Keane PA, Wong TY. Artificial intelligence and deep learning in ophthalmology. Br J Ophthalmol. 2019 Feb;103(2):167-175.
3. Keane PA, Topol EJ. With an eye to AI and autonomous diagnosis. NPJ Digit Med. 2018 Aug 28;1:40.
作者簡介:姓名:賈保柱,性別:男,出生年月:1987.05.13,籍貫:山東,學(xué)歷:博士,職稱:副研究員,單位:中國科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所,研究方向:人工智能。姓名:鐘正一,性別:男,出生年月:1997年11月,籍貫:四川成都,學(xué)歷:本科,單位:中國科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所,研究方向:電子電氣工程。
姓名:衛(wèi)寒澤,男,出生年月:1996.11,籍貫:山西臨汾,學(xué)歷:學(xué)士,單位:中國科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所,研究方向:電子電氣工程。
姓名:劉榮榮,性別:男,出生年月:1999年2月,籍貫:江西贛州,學(xué)歷:本科,單位:中國科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所,研究方向:電子電氣工程。
基金:國家重點研發(fā)計劃(2019YFC0118004)資助的課題