沈陽理工大學(xué)自動(dòng)化與電氣工程學(xué)院 石征錦 王 康
深度強(qiáng)化學(xué)習(xí)在Atari視頻游戲上的應(yīng)用
沈陽理工大學(xué)自動(dòng)化與電氣工程學(xué)院 石征錦 王 康
考慮到深度學(xué)習(xí)在圖像特征提取上的優(yōu)勢,為了提高深度學(xué)習(xí)在Atari游戲上的穩(wěn)定性,在卷積神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)改進(jìn)的Q-learning算法相結(jié)合的基礎(chǔ)上,提出了一種基于模型融合的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)表明,新的模型能夠充分學(xué)習(xí)到控制策略,并且在Atari游戲上達(dá)到或者超出普通深度強(qiáng)化學(xué)習(xí)模型的得分,驗(yàn)證了模型融合的深度強(qiáng)化學(xué)習(xí)在視頻游戲上的穩(wěn)定性和優(yōu)越性。
強(qiáng)化學(xué)習(xí);深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);視頻游戲
2016年年初備受矚目的圍棋“人機(jī)大戰(zhàn)”對(duì)局中,最終以人類圍棋冠軍被擊敗落下帷幕。深智(DeepMind)團(tuán)隊(duì)開發(fā)的圍棋機(jī)器人AlphaGo引起一波關(guān)于人工智能的熱議。這兩年谷歌公司的人工智能研究團(tuán)隊(duì)DeepMind取得了兩項(xiàng)意義非凡的研究成果:基于Atari視頻游戲的深度強(qiáng)化學(xué)習(xí)算法[1]和計(jì)算機(jī)圍棋初弈號(hào)[2]。這些取得的研究成果開啟了人工智能學(xué)習(xí)算法的革命,作為人工智能重要一部分的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)也成為廣大群眾討論的熱點(diǎn)話題。
從2010年開始,隨著計(jì)算機(jī)計(jì)算能力的提高,和預(yù)訓(xùn)練技術(shù)的改進(jìn),深度學(xué)習(xí)在包括語音識(shí)別、視覺對(duì)象識(shí)別及檢測等人工智能領(lǐng)域取得了比傳統(tǒng)方式更大的優(yōu)勢。深度學(xué)習(xí)的發(fā)展和進(jìn)步把從原始的數(shù)據(jù)中提取高水平特征變成現(xiàn)實(shí)。深度學(xué)習(xí)在感知能力表現(xiàn)強(qiáng)勢,但是在決缺策能力上不盡人意;與此相反,強(qiáng)化學(xué)習(xí)在決策能力上表現(xiàn)上佳,但是對(duì)感知問題無特別優(yōu)勢。因此,將兩者結(jié)合起來優(yōu)勢互補(bǔ),為解決復(fù)雜系統(tǒng)的感知決策問題提供了方法[3]。將具有感知能力的深度學(xué)習(xí)(deeplearning,DL)和具有決策能力的強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)優(yōu)勢互補(bǔ)的結(jié)合在一起,構(gòu)成深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)算法。這些算法表現(xiàn)出來的性能超出人們的想象,對(duì)促進(jìn)人工智能領(lǐng)域的發(fā)展具有極大的意義。
本文對(duì)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型進(jìn)行了改進(jìn),充分利用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)中儲(chǔ)存的經(jīng)驗(yàn)回放機(jī)制中的數(shù)據(jù)對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行精調(diào)。采用不同模型中的經(jīng)驗(yàn)回放的數(shù)據(jù)更能提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練水平,該方法為深度神經(jīng)網(wǎng)絡(luò)提供了較好的訓(xùn)練效果,降低了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度。改進(jìn)后的模型在神經(jīng)網(wǎng)絡(luò)權(quán)值更新上效果更好,實(shí)驗(yàn)驗(yàn)證在Atari視頻游戲的得分達(dá)到了預(yù)期效果。
深度學(xué)習(xí)起源于人工神經(jīng)網(wǎng)絡(luò),目前典型的深度學(xué)習(xí)模型包括:卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、堆棧自編碼網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等。本文應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[4]中提出的深度Q網(wǎng)絡(luò)(deep Q network,DQN),是將卷積神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí)結(jié)合,并集成經(jīng)驗(yàn)回放技術(shù)實(shí)現(xiàn)的。經(jīng)驗(yàn)回放通過重復(fù)采樣歷史數(shù)據(jù)增加了數(shù)據(jù)的使用效率,同時(shí)減少了數(shù)據(jù)之間的相關(guān)性[5]。深度Q網(wǎng)絡(luò)是深度強(qiáng)化學(xué)習(xí)算法上的重要?jiǎng)?chuàng)新,它采用游戲畫面作為原始圖像輸入,經(jīng)過卷積層,抽樣層神經(jīng)網(wǎng)絡(luò)和全連接層神經(jīng)網(wǎng)絡(luò),輸出狀態(tài)動(dòng)作Q函數(shù),然后選擇最好的動(dòng)作實(shí)現(xiàn)學(xué)習(xí)控制的目標(biāo)。深度Q網(wǎng)絡(luò)使用帶有參數(shù)θ的Q函數(shù)Q(s,a;θ)去逼近值函數(shù)。迭代次數(shù)為i時(shí),損失函數(shù)函數(shù)為[5]:
其中:
該工作對(duì)深度強(qiáng)化學(xué)習(xí)很大的意義。
算法流程如下:
由于Atari采集的是時(shí)間比較接近的樣本,不可避免的是它們具有連續(xù)性,受樣本分布得影響,這樣更新的Q值效果不理想。因此,把樣本先存起來,然后隨機(jī)采樣就是一個(gè)比較實(shí)用可行的想法。這就是經(jīng)驗(yàn)回放的意思。算法要求就是反復(fù)試驗(yàn),將數(shù)據(jù)儲(chǔ)存起來,數(shù)據(jù)達(dá)到一定數(shù)量就每次隨機(jī)采樣數(shù)據(jù)進(jìn)行梯度下降。在DQN中強(qiáng)化學(xué)習(xí)Q-Learning算法和深度學(xué)習(xí)的隨機(jī)梯度下降訓(xùn)練是同步進(jìn)行的,通過Q-Learning獲取無限量的訓(xùn)練樣本,然后對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
將兩個(gè)不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過經(jīng)驗(yàn)回放機(jī)制儲(chǔ)存的歷史經(jīng)驗(yàn)數(shù)據(jù)互相使用來更新網(wǎng)絡(luò)的權(quán)值,我們稱之為模型融合的神經(jīng)網(wǎng)絡(luò)。該方法的提出目的是提高訓(xùn)練過程的穩(wěn)定性,加速收斂速度。并且agent在測試集上仍然采用ε-greedy策略進(jìn)行游戲,agent的采用這種隨機(jī)策略有可能導(dǎo)致這種不確定性。權(quán)重的細(xì)小的變化就有可能造成結(jié)果大不相同,狀態(tài)是游戲畫面,選擇不同的行為動(dòng)作就會(huì)造成不同的畫面變化,這種細(xì)小的變化的累積影響實(shí)際是巨大的。神經(jīng)網(wǎng)絡(luò)權(quán)重的微小變化可能造成策略掃過的狀態(tài)大不相同,而我們希望agent盡可能多的收集訓(xùn)練數(shù)據(jù)用于訓(xùn)練,所以通過從大量的歷史樣本中采樣并使用融合多個(gè)不同DNN架構(gòu)的經(jīng)驗(yàn)回放中的數(shù)據(jù),采樣經(jīng)驗(yàn)回放中的數(shù)據(jù)時(shí),使用不同的采樣方法并且盡量采樣相關(guān)性比較小的樣本,比如兩個(gè)樣本之間相隔4幀以上,不采樣處于終結(jié)狀態(tài)的幀,處于終結(jié)狀態(tài)的幀不存在后續(xù)幀。不同的網(wǎng)絡(luò)結(jié)構(gòu)也是間接地將歷史樣本增加了。DRL1使用和圖2不同的卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu):
(1)卷積步長不同,有(4,2)改為(2,2)。
(2)將mini-batch的采樣大小48改為16。
(3)改變輸入圖像的預(yù)處理方法。
(4)全連接層的層數(shù)或者節(jié)點(diǎn)數(shù)量不同,將全連接層節(jié)點(diǎn)由512改為256。
模型融合DRL流程圖見圖1。
圖1 模型融合DRL流程圖
為了減少計(jì)算對(duì)原始的游戲幀(210*160像素128)色處理,首先把圖像RGB三色圖像轉(zhuǎn)換為灰度圖并降采樣,其次將輸入圖像截?cái)喑?4*84像素大小,圖像區(qū)域大致覆蓋游戲區(qū)域。截取成84*84像素是因?yàn)槲覀兪褂玫腉PU實(shí)現(xiàn)2D卷積需要方形輸入。在后續(xù)的實(shí)驗(yàn)中,函數(shù)負(fù)責(zé)將歷史幀中最近的4幀圖像進(jìn)行預(yù)處理并作為網(wǎng)絡(luò)的輸入。卷積神經(jīng)網(wǎng)絡(luò)如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
從序列中取的連續(xù)幀越多,那么網(wǎng)絡(luò)能觀察的全局信息就越多,對(duì)局勢的判斷也會(huì)越準(zhǔn)確,但是網(wǎng)絡(luò)規(guī)模會(huì)成倍增長,所以需要權(quán)衡網(wǎng)絡(luò)規(guī)模和算法性能。使用連續(xù)4幀作為網(wǎng)絡(luò)的輸入,這里選用ReLU (Rectif i ed Linear Units)作為網(wǎng)絡(luò)的激活函數(shù),ReLU具有計(jì)算速度快,準(zhǔn)確率高等優(yōu)點(diǎn),函數(shù)形式f(x)=max(0,x)[6]。網(wǎng)絡(luò)的輸入是經(jīng)過預(yù)處理生成的84*84*4的圖像;第一個(gè)隱藏層由32個(gè)8*8的卷積核組成,步長為4,并使用ReLu做非線性變換,經(jīng)過卷積核的變換后該層有20*20*32個(gè)節(jié)點(diǎn)第二個(gè)隱藏層包含48個(gè)4*4的卷積核,步長為2,同樣使用ReLu做非線性變換,經(jīng)過卷積核的變換后該層有9*9*48個(gè)節(jié)點(diǎn)。最后一個(gè)隱藏層包含512個(gè)與上一層進(jìn)行全連接ReLU單元。輸出層單元是與上一層的全連接的線性函數(shù),每一個(gè)輸出對(duì)應(yīng)一個(gè)可能的動(dòng)作。
openai中的Atari 2600模擬器運(yùn)行狀態(tài)每秒生成60幀,我們設(shè)定每4幀發(fā)送1幀,由于神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)速度沒那么快,為避免造成卡頓。每個(gè)Atari的游戲得分評(píng)價(jià)標(biāo)準(zhǔn)不同,為了讓不同的游戲融合在一個(gè)框架下,這里將它劃為統(tǒng)一標(biāo)準(zhǔn),即agent每次做出有利的動(dòng)作得分+1,做出不利的動(dòng)作-1,沒改變的是0[7]。算法在游戲中的評(píng)價(jià)方法如下:游戲被天然的分割為多個(gè)episode過程,每個(gè)episode開始于重置命令后的那一幀,結(jié)束于檢測到游戲結(jié)束條件,或者超過5分鐘的實(shí)際游戲時(shí)間,一個(gè)強(qiáng)化學(xué)習(xí)算法從1000個(gè)訓(xùn)練episode中學(xué)習(xí),接下來在200個(gè)非學(xué)習(xí)階段的episode中進(jìn)行評(píng)價(jià),agent的表現(xiàn)用評(píng)價(jià)階段的episode的均值分?jǐn)?shù)來測量。
表1 3種模式下的游戲得分
表1記錄了Human,DRL和模型融合的DRL在4種不同的游戲中的得分表現(xiàn)。在多個(gè)不同游戲中的表現(xiàn)證明了深度強(qiáng)化學(xué)習(xí)的泛化性能優(yōu)異。對(duì)比發(fā)現(xiàn),DRL在打磚塊和乒乓球上比人類玩家更加出色,基于模型融合的DRL在打磚塊,太空侵略者和乒乓上比人類優(yōu)異,且在4種游戲中都比DRL表現(xiàn)好。這也證明了該模型在玩游戲中效果更好。
本文介紹了基于經(jīng)驗(yàn)回放的而改進(jìn)的模型融合的深度強(qiáng)化學(xué)習(xí)模型。實(shí)驗(yàn)證明了該網(wǎng)絡(luò)結(jié)構(gòu)DRL在Atari 2600游戲中成功的學(xué)習(xí)到控制策略,并且在穩(wěn)定性和學(xué)習(xí)效果上比較優(yōu)異。通過分析不同游戲的特征發(fā)現(xiàn),模型融合的DRL在靈敏度比較高的游戲中比較取得好的成績(如打磚塊,乒乓等)。但是在環(huán)境復(fù)雜需要全局考量的策略類游戲中的(如深海游弋,太空侵略者等)得分相對(duì)低一些,這個(gè)是需要繼續(xù)研究和改進(jìn)的地方。
[1]MNIHV,KAVUKCUOGLUK,SILVERD,etal..Human-levelcontrol through deep reinforc ement learning[J].Nature,2015,518(7540):529-533.
[2]SILVER D,HUANG A,MADDISON C,et al.Mastering the game of Go with deep neural,networks and tree search[J].Nature,2016,529(7587): 484-489.
[3]趙冬斌,邵坤,朱圓恒,李棟,陳亞冉等.深度強(qiáng)化學(xué)習(xí)綜述:兼論計(jì)算機(jī)圍棋的發(fā)展[J].控制理論與應(yīng)用,DOI:10.7641/CTA.2016.60173.
[4]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Playing atari with deep reinforcement learning[C]//Proceedings of the NIPS Workshop on Deep Learning.Lake Tahoe:MIT Press,2013.
[5]WATKINS C J C H.Learning from delayed rewards[D].Cambridge:University of Cambridge,1989.
[6]Riedmiller M.Neural fitted Q iteration-first experiences with a data ecient neural reinforcement learning method[J].In:Proceedings of the 16th European Conference on Machine Learning.Porto,Portugal:Springer,2005.
[7]Marc G Bellemare,Yavar Naddaf,Joel Veness,and Michael Bowling. The arcade learning environment:An evaluation platform for general agents[J].Journal of Artificial Intelligence Research,47:253-279,2013.
The Application of Depth of reinforcement Learning in the Vedio Game
Shi Zhengjin Wang Kang
(School Of Automation And Electrical Engineering,Shenyang Ligong University Shenyang 110168,China)
Considering the advantage of depth learning in image feature extraction,In order to improve the depth study on the Atari game performance this paper proposes a depth neural network structure based on model fusion,convolution neural network and modif i ed Q-learning algorithm.Experiments show that the new model can fully study the control strategy,and it achieve or exceed the scores of the general learning model in the Atari game.Proving the deep reinforcement learning based on model fusion have the stability and superiority in the video game.
reinforcement learning;deep learning;neural network;vedio game
石征錦(1963—),男,遼寧沈陽人,碩士,教授,研究領(lǐng)域:人工智能,檢測技術(shù)與自動(dòng)化裝置,先進(jìn)控制理論及應(yīng)用。
王康【通訊作者】(1992—),男,山東棗莊人,碩士,研究領(lǐng)域:人工智能,深度學(xué)習(xí),先進(jìn)控制理論與應(yīng)用。