• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于條件生成對抗網(wǎng)絡(luò)的模型化策略搜索方法

    2021-02-25 09:26:52趙婷婷
    天津科技大學(xué)學(xué)報 2021年1期
    關(guān)鍵詞:變量樣本狀態(tài)

    孔 樂,趙婷婷

    (天津科技大學(xué)人工智能學(xué)院,天津 300457)

    深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)[1]是一種以試錯機(jī)制與環(huán)境交互并最大化累積回報獲得最優(yōu)策略的機(jī)器學(xué)習(xí)范式.為得到最優(yōu)策略,DRL 要求智能體能夠?qū)χ車h(huán)境有所認(rèn)知、理解并根據(jù)任務(wù)要求做出符合環(huán)境情境的決策動作.目前,DRL 已在智能對話系統(tǒng)[2]、無人駕駛車[3-4]、存儲系統(tǒng)[5]、智能電網(wǎng)[6]、智能交通系統(tǒng)[7]、機(jī)器人系統(tǒng)[8]、航空航天系統(tǒng)[9]、游戲[10]及數(shù)字藝術(shù)智能系統(tǒng)[11]等領(lǐng)域取得突破性進(jìn)展.

    根據(jù)學(xué)習(xí)過程中環(huán)境模型是否可用,強(qiáng)化學(xué)習(xí)可分為模型化強(qiáng)化學(xué)習(xí)[12](model-based reinforcement learning,Mb-RL)和模型強(qiáng)化學(xué)習(xí)[12](model free reinforcement learning,Mf-RL).環(huán)境模型即系統(tǒng)動力學(xué)模型,是對狀態(tài)轉(zhuǎn)移函數(shù)的描述.Mf-RL 方法中,環(huán)境模型是未知的,智能體必須與真實(shí)環(huán)境進(jìn)行大量交互獲得足夠多的訓(xùn)練樣本才能保證智能體的決策性能.因此,Mf-RL 方法樣本利用率較低,如RainbowDQN 算法至少需要1 800 萬幀的訓(xùn)練樣本或大約83 h 的訓(xùn)練時間才能學(xué)會玩游戲,而人類掌握游戲所用時間遠(yuǎn)遠(yuǎn)少于此算法[13].盡管Mf-RL 方法在諸如游戲等虛擬決策任務(wù)中取得了良好的性能,但對于真實(shí)環(huán)境中的決策任務(wù),收集充分的訓(xùn)練樣本不僅需要大量時間與財力,樣本收集過程還對系統(tǒng)硬件配置提出了較高要求,甚至存在損壞智能系統(tǒng)的風(fēng)險.另外,訓(xùn)練樣本不足會導(dǎo)致智能體無法從少量訓(xùn)練樣本中提取有用信息進(jìn)行準(zhǔn)確策略更新.相比之下,Mb-RL 方法在對環(huán)境精準(zhǔn)建模后,智能體無需與真實(shí)環(huán)境互動就可以進(jìn)行策略學(xué)習(xí),可直接與環(huán)境模型交互生成所需訓(xùn)練樣本,從而在一定程度上緩解強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中學(xué)習(xí)效率低、樣本利用率低的問題.

    模型化強(qiáng)化學(xué)習(xí)方法的基本思想是首先對環(huán)境動態(tài)建模,學(xué)習(xí)環(huán)境模型參數(shù),當(dāng)模型參數(shù)訓(xùn)練收斂得到穩(wěn)定環(huán)境模型后,智能體便可直接與預(yù)測環(huán)境模型交互進(jìn)行策略學(xué)習(xí)[14].整個過程中,僅在學(xué)習(xí)模型參數(shù)時需要一定訓(xùn)練樣本,樣本需求量相對較小.然而,受環(huán)境噪聲、系統(tǒng)動態(tài)性等因素影響,預(yù)測的環(huán)境模型通常難以準(zhǔn)確描述真實(shí)環(huán)境,即學(xué)到的環(huán)境模型與真實(shí)環(huán)境間存在模型誤差[15].使用存在模型誤差的環(huán)境模型生成數(shù)據(jù)進(jìn)行策略學(xué)習(xí)將會產(chǎn)生更大誤差,最終導(dǎo)致任務(wù)失敗.為此,研究人員提出了一系列減小模型誤差、提高環(huán)境模型準(zhǔn)確性的方法,如Dyna 模型化強(qiáng)化學(xué)習(xí)框架[16]、嵌入控制方法[17],基于神經(jīng)網(wǎng)絡(luò)動力學(xué)和無模型微調(diào)的模型化深度強(qiáng)化學(xué)習(xí)方法(E2C)[18]、世界模型[19]等方法.其中,Dyna框架是Mb-RL 中最經(jīng)典的學(xué)習(xí)模式,學(xué)習(xí)控制的概率推理方法(probabilistic inference for learning control,PILCO)[20]和基于最小二乘條件密度估計方法的模型化策略搜索算法(Mb-PGPE-LSCDE)[21]是Dyna 框架下經(jīng)典的Mb-RL 方法.PILCO 方法已廣泛應(yīng)用在機(jī)器人控制等領(lǐng)域,然而該方法將狀態(tài)轉(zhuǎn)移函數(shù)建模為高斯過程,且對回報函數(shù)也作了相應(yīng)假設(shè),這極大程度限制了它的實(shí)際應(yīng)用;LSCDE 方法能夠擬合任意形狀的狀態(tài)轉(zhuǎn)移函數(shù),但是當(dāng)處理高維度狀態(tài)空間問題時存在模型表達(dá)能力不足的缺陷.

    近年,針對不同的應(yīng)用場景,研究者提出了一系列基于Mb-RL 的相關(guān)工作,如使用少量交互數(shù)據(jù)便可實(shí)現(xiàn)指定軌跡跟蹤任務(wù)的基于神經(jīng)網(wǎng)絡(luò)動力學(xué)和無模型微調(diào)的模型化深度強(qiáng)化學(xué)習(xí)方法(MBMF)[18],支持圖像長期預(yù)測和復(fù)雜控制的嵌入控制方法(E2C)[17],易于復(fù)現(xiàn)、可實(shí)現(xiàn)快速學(xué)習(xí)并遷移至真實(shí)環(huán)境的世界模型方法[22],使用變分自編碼(variational autoencoder,VAE)[23]方法捕捉狀態(tài)轉(zhuǎn)移函數(shù)的方法等.上述相關(guān)工作在各自應(yīng)用領(lǐng)域雖然已經(jīng)取得較好成果,但是面向大規(guī)模復(fù)雜動態(tài)環(huán)境如何得到準(zhǔn)確環(huán)境模型,仍是該領(lǐng)域亟待解決的問題.

    生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[24]是Goodfellow 于2014 年提出的生成模型,它在數(shù)據(jù)生成方面取得巨大進(jìn)展,并已廣泛應(yīng)用于圖像風(fēng)格遷移[25]、視頻預(yù)測[26]、自然語言處理[27]等領(lǐng)域.GAN 由生成器(generator,G)和判別器(discriminator,D)組成,生成器G 旨在生成趨近真實(shí)數(shù)據(jù)分布的偽造數(shù)據(jù),判別器D 則旨在正確區(qū)分偽造數(shù)據(jù)和真實(shí)數(shù)據(jù),二者在對抗中逐漸達(dá)到納什均衡.

    本文借助GAN 在數(shù)據(jù)生成方面的優(yōu)勢,提出一種基于GAN 的環(huán)境模型學(xué)習(xí)方法.條件生成對抗網(wǎng)絡(luò)(conditional generative adversarial networks,CGAN)對生成器G 和判別器D 分別作了限定,是GAN 的變體之一,同樣具備GAN 的諸多優(yōu)勢[28].該方法是將CGAN 與Mb-RL 結(jié)合應(yīng)用在學(xué)習(xí)狀態(tài)轉(zhuǎn)移模型上的首次嘗試.本文將CGAN 與擅長處理連續(xù)動作空間的策略搜索方法結(jié)合,提出一種基于CGAN 的模型化策略搜索方法.與傳統(tǒng)環(huán)境模型學(xué)習(xí)方法相比,該方法優(yōu)勢在于:傳統(tǒng)概率生成模型需要馬可夫鏈?zhǔn)降牟蓸雍屯茢?,而GAN 避免了此類計算復(fù)雜度高的過程,在一定程度上提高了生成模型在學(xué)習(xí)環(huán)境模型中的應(yīng)用效率;GAN 的對抗訓(xùn)練機(jī)制可以逼近任意復(fù)雜的目標(biāo)函數(shù),使得在概率密度不可計算時,基于GAN 的環(huán)境模型學(xué)習(xí)方法依然適用.

    1 相關(guān)理論

    1.1 問題模型

    強(qiáng)化學(xué)習(xí)是指智能體在未知環(huán)境中,通過不斷與環(huán)境交互,學(xué)習(xí)最優(yōu)策略的學(xué)習(xí)范式.智能體是具有決策能力的主體,通過狀態(tài)感知、動作選擇和接收反饋與環(huán)境互動.通常,智能體與環(huán)境的交互過程可建模為馬爾可夫決策過程(markov decision process,MDP)[29],一個完整的MDP 由狀態(tài)、動作、狀態(tài)轉(zhuǎn)移函數(shù)、回報構(gòu)成的五元組(S、A、P、P0、R)表示,其中:S 表示狀態(tài)空間,是所有狀態(tài)的集合,st為t 時刻所處狀態(tài);A 表示動作空間,是所有動作的集合,at為t 時刻所選擇的動作;P 表示狀態(tài)轉(zhuǎn)移概率,即環(huán)境模型,根據(jù)狀態(tài)轉(zhuǎn)移概率是否已知,強(qiáng)化學(xué)習(xí)方法分為Mb-RL 和Mf-RL;P0表示初始狀態(tài)概率,是隨機(jī)選擇某一初始狀態(tài)的可能性表示;R 表示智能體的累積回報,rt為t 時刻的瞬時回報.

    在每個時間步長t,智能體首先觀察當(dāng)前環(huán)境狀態(tài)st,并根據(jù)當(dāng)前策略函數(shù)決策選擇并采取動作at,所采取動作一方面與環(huán)境交互,依據(jù)狀態(tài)轉(zhuǎn)移概率p (st+1| st,at)實(shí)現(xiàn)狀態(tài)轉(zhuǎn)移,另一方面獲得瞬時回報rt,該過程不斷迭代T 次直至最終狀態(tài),得到一條路徑hn:=

    強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)策略,從而最大化期望累積回報.當(dāng)?shù)玫揭粭l路徑后,便可計算該路徑的累積回報

    其中0≤γ<1,決定回報的時間尺度.

    累積回報的期望衡量策略好壞,累積回報期望為

    1.2 策略搜索方法

    策略搜索方法是一種策略優(yōu)化方法,該方法直接對策略進(jìn)行學(xué)習(xí),適用于解決具有連續(xù)動作空間的復(fù)雜決策任務(wù)[13],本文將使用策略搜索方法進(jìn)行策略學(xué)習(xí).

    策略搜索方法的學(xué)習(xí)目的是找到可最大化累積回報期望值J(θ)的參數(shù)θ,即最優(yōu)策略參數(shù)θ*為

    其中θ 是策略參數(shù),累積回報期望J(θ)是策略參數(shù)θ的函數(shù).

    其中0≤γ1<,決定回報的時間尺度.

    目前,最具代表性的策略搜索算法有PEGASUS[13]、策略梯度方法[30-31]、自然策略梯度方法[32]等.其中,策略梯度方法是尋找最優(yōu)策略參數(shù)最簡單、最常用的方法.鑒于策略梯度方法中的近端策略優(yōu)化方法(proximal policy optimization,PPO)的優(yōu)越性能,本文使用PPO 算法進(jìn)行策略學(xué)習(xí)[33].

    1.3 生成對抗網(wǎng)絡(luò)

    GAN 由生成器(generator,G) 和判別器(discriminator,D)組成,如圖1 所示,其中:黑色框圖為原始生成對抗網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu),對生成器G 和判別器D 分別添加條件變量y 后(紅色虛線框圖),網(wǎng)絡(luò)結(jié)構(gòu)為條件生成對抗網(wǎng)絡(luò)示意圖.生成器G 實(shí)現(xiàn)隨機(jī)變量假樣本數(shù)據(jù)G(z)的映射,z 通常為服從高斯分布的隨機(jī)噪聲,生成器G 的目的是使假樣本數(shù)據(jù)G(z)與真實(shí)數(shù)據(jù)x 高度相似.判別器D 接收真實(shí)數(shù)據(jù)x 或假樣本數(shù)據(jù)G(z)并輸出概率值,該概率值表征輸入數(shù)據(jù)是真實(shí)數(shù)據(jù)的幾率.若數(shù)據(jù)是真實(shí)數(shù)據(jù),判別器D 輸出大概率;否則,判別器D 輸出小概率.

    圖1 GAN結(jié)構(gòu)示意圖Fig.1 Diagram of generative adversarial network

    訓(xùn)練過程中,生成器G 和判別器D 不斷交替更新模型參數(shù),最終到達(dá)納什均衡.訓(xùn)練過程可表示為關(guān)于值函數(shù)V(D,G)的極大化與極小化的博弈問題,其目標(biāo)函數(shù)可表示為

    式中:V(D,G)表示損失值;x 表示真實(shí)數(shù)據(jù)分布的采樣;z 表示隨機(jī)噪聲變量.

    鑒于GAN 在數(shù)據(jù)生成方面的優(yōu)勢以及在強(qiáng)化學(xué)習(xí)領(lǐng)域取得的成功,本文擬用同樣具有優(yōu)秀數(shù)據(jù)生成能力的GAN 分支之一的CGAN 學(xué)習(xí)環(huán)境中的狀態(tài)轉(zhuǎn)移概率密度函數(shù) PT(st+1| st,at).其中,CGAN(如圖1 所示)額外在生成模型G 和判別模型D 中引入條件變量y 對模型增加限定,用于指導(dǎo)數(shù)據(jù)生成過程.CGAN 的損失函數(shù)為

    2 實(shí)現(xiàn)方法

    2.1 算法執(zhí)行步驟

    Mb-RL 方法需要首先學(xué)習(xí)得到精準(zhǔn)的狀態(tài)轉(zhuǎn)移模型,策略學(xué)習(xí)階段便利用該模型生成所需樣本,減少智能體與環(huán)境的交互次數(shù).

    (2)利用CGAN 對狀態(tài)轉(zhuǎn)移函數(shù)pT(st+1| st,at)進(jìn)行建模,使用第1 步搜集到的樣本進(jìn)行模型的訓(xùn)練.

    (4)更新策略模型中的參數(shù)直至收斂,最終得到最優(yōu)策略π*.

    2.2 基于CGAN的環(huán)境模型學(xué)習(xí)方法

    Mb-RL 方法中,當(dāng)狀態(tài)轉(zhuǎn)移模型能夠完全模擬真實(shí)環(huán)境時,智能體只需與學(xué)到的狀態(tài)轉(zhuǎn)移模型交互便可得到下一狀態(tài),從而減少智能體與真實(shí)環(huán)境的交互.因此,如何得到真實(shí)環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)是 Mb-RL 方法的關(guān)鍵.本文使用CGAN 捕捉真實(shí)環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)分布(圖2).

    圖2 基于CGAN的環(huán)境模型學(xué)習(xí)方法Fig.2 Method of environment learning based on CGAN

    狀態(tài)轉(zhuǎn)移函數(shù)中下一狀態(tài)st+1受當(dāng)前狀態(tài)st和當(dāng)前狀態(tài)下采取動作at的限定,是一個條件概率密度模型,表示為PT(st+1| st,at).因此,本文將當(dāng)前狀態(tài)st和當(dāng)前狀態(tài)下采取動作at作為CGAN 的條件變量y對生成器G 和判別器D 同時增加限定,指導(dǎo)下一狀態(tài)st1+生成.該條件變量y 和隨機(jī)變量z 同時作為生成器G 的輸入,此時生成器G 的輸出是當(dāng)前狀態(tài)下st執(zhí)行動作at到達(dá)的下一狀態(tài)st+1.將該輸出與真實(shí)樣本數(shù)據(jù)連同條件變量y 同時輸入到判別器D 中,可估計一個樣本來自于訓(xùn)練數(shù)據(jù)的概率.上述過程目標(biāo)函數(shù)可表示為

    在CGAN 模型訓(xùn)練穩(wěn)定后,可直接將訓(xùn)練穩(wěn)定的生成器G 作為環(huán)境預(yù)測模型,與智能體交互生成大量樣本數(shù)據(jù)用于策略學(xué)習(xí).

    2.3 策略搜索方法

    1) 針對數(shù)控機(jī)床誤差耦合性的特點(diǎn),首先通過提升小波分解機(jī)床誤差原始數(shù)據(jù),從而可以有效準(zhǔn)確地進(jìn)行誤差預(yù)測;

    綜上,本方法將CGAN 與PPO 結(jié)合尋找最優(yōu)策略,其中CGAN 將狀態(tài)動作空間模型化為狀態(tài)轉(zhuǎn)移模型(s′ | s, a),隨后利用學(xué)到的狀態(tài)轉(zhuǎn)移模型生成樣本用于PPO 的策略學(xué)習(xí),從而得到最優(yōu)策略π*.

    3 環(huán)境模型測試實(shí)驗(yàn)

    3.1 實(shí)驗(yàn)環(huán)境

    玩具問題能夠快速地驗(yàn)證算法有效性,先將原始復(fù)雜問題轉(zhuǎn)化為簡單問題,再進(jìn)行求解.本節(jié)將強(qiáng)化學(xué)習(xí)中的環(huán)境模型簡化為四核高斯分布,探索本文所提的基于CGAN 的環(huán)境模型學(xué)習(xí)方法在捕捉數(shù)據(jù)分布方面的能力.

    3.2 實(shí)驗(yàn)設(shè)置

    本實(shí)驗(yàn)將模擬實(shí)現(xiàn)基于CGAN 的環(huán)境模型學(xué)習(xí)方法的學(xué)習(xí)過程.實(shí)驗(yàn)?zāi)康氖鞘褂没贑GAN 的環(huán)境模型學(xué)習(xí)數(shù)據(jù)分布,其中CGAN 中生成器G 和判別器D 的網(wǎng)絡(luò)模型均為多層感知機(jī).實(shí)驗(yàn)中各變量設(shè)置如下:變量y 代表CGAN 中的條件變量,該條件變量對應(yīng)強(qiáng)化學(xué)習(xí)中t 時刻的狀態(tài)st和動作at,即[ st,at];x 為真實(shí)數(shù)據(jù),對應(yīng)強(qiáng)化學(xué)習(xí)中的下一狀態(tài)st+1.實(shí)驗(yàn)從(0,1)區(qū)間隨機(jī)采樣得到條件y,經(jīng)過二維轉(zhuǎn)移函數(shù)映射得到真實(shí)數(shù)據(jù)x.

    其 中μ1=[5,35],μ2=[30,40],μ3=[20,20],μ4=[45,15],∑=[[30,0],[0,30]]且

    最終得到的真實(shí)數(shù)據(jù)x 的分布是四核高斯混合分布.實(shí)驗(yàn)初期,將真實(shí)數(shù)據(jù)x 歸一化到[-1,1],基于CGAN 的環(huán)境模型學(xué)習(xí)方法隨機(jī)選取條件變量集[ y1,y2,y3,…,yn]并通過公式(10)一一映射得到真實(shí)樣本數(shù)據(jù)集[ x1,x2,x3,…,xn],使用CGAN 對條件變量集和真實(shí)樣本數(shù)據(jù)集建模學(xué)習(xí),訓(xùn)練穩(wěn)定收斂后CGAN 中生成器G 可直接生成與真實(shí)樣本數(shù)據(jù)高度相似的數(shù)據(jù)分布.

    3.3 實(shí)驗(yàn)分析

    為了分析本文所提算法在環(huán)境數(shù)據(jù)生成方面的能力,將本文所提出的基于CGAN 的環(huán)境模型學(xué)習(xí)方法與基于條件變分自編碼器(conditional variational autoencoder,CVAE)[23]的環(huán)境模型學(xué)習(xí)方法及相關(guān)工作MBMF 算法[18]所提出的使用神經(jīng)網(wǎng)絡(luò)模型(neural network,NN)學(xué)習(xí)環(huán)境模型的方法進(jìn)行對比實(shí)驗(yàn).

    本實(shí)驗(yàn)擬用基于CGAN 的環(huán)境模型學(xué)習(xí)方法在玩具問題中對指定形式的環(huán)境進(jìn)行建模學(xué)習(xí),實(shí)驗(yàn)使用3 000 個條件變量y 以及對應(yīng)的真實(shí)樣本數(shù)據(jù)x 對CGAN 訓(xùn)練迭代5 000 次.測試階段,將在(0,1)區(qū)間選取500 個隨機(jī)數(shù)[ y1,y2,y3,…,y500]作為條件變量y 進(jìn)行預(yù)測.

    探索使用不同學(xué)習(xí)方法的學(xué)習(xí)過程.圖3 表示使用不同方法對環(huán)境進(jìn)行學(xué)習(xí)的過程中得到的生成數(shù)據(jù)與對應(yīng)真實(shí)數(shù)據(jù)間的誤差.模型訓(xùn)練過程中,每迭代400 次對模型進(jìn)行一次測試,計算測試結(jié)果與真實(shí)樣本數(shù)據(jù)[ x1,x2,x3,…,x500]的誤差.由圖3 可知,使用CGAN 方法的訓(xùn)練初期,生成器G 與判別器D 在對抗中學(xué)習(xí)并不斷優(yōu)化自身,大約2 000 次迭代模型就可收斂到0.075,其學(xué)習(xí)收斂速度最快.此外,使用CGAN 方法學(xué)習(xí)環(huán)境模型的性能優(yōu)于使用CVAE 和NN 的方法,利用其得到真實(shí)數(shù)據(jù)與生成數(shù)據(jù)間的平均距離和方差明顯小于對比方法,且其性能也較穩(wěn)定.

    圖3 學(xué)習(xí)過程中生成數(shù)據(jù)與真實(shí)數(shù)據(jù)間的誤差Fig.3 Errors in generative data and real data during the learning process

    圖4 表示使用上述3 種方法預(yù)測的狀態(tài)轉(zhuǎn)移數(shù)據(jù)與真實(shí)數(shù)據(jù)間的均方差(mean squared error)對比結(jié)果.由圖4 可知,使用基于CGAN 生成數(shù)據(jù)的準(zhǔn)確度明顯優(yōu)于CVAE 和NN 方法得到的數(shù)據(jù).

    圖4 不同預(yù)測方法狀態(tài)轉(zhuǎn)移數(shù)據(jù)與真實(shí)數(shù)據(jù)的均方差對比Fig.4 Mean squared errors in state transition data predicted by different methods and real data

    真實(shí)數(shù)據(jù)分布、使用基于CGAN 的環(huán)境模型方法所得分布以及使用CVAE、NN 捕捉得到分布的對比結(jié)果如圖5 所示,每幅結(jié)果圖的中間部分表示在條件變量限定下的數(shù)據(jù)聯(lián)合分布,上側(cè)和右側(cè)分別表示數(shù)據(jù)在x 軸和y 軸的邊緣概率分布.在模型訓(xùn)練穩(wěn)定后輸入為同一批隨機(jī)條件變量[ y1,y2,y3,…,y500]進(jìn)行對比驗(yàn)證.圖5(a)為真實(shí)數(shù)據(jù)分布;圖5(b)為同樣條件變量下使用基于 CGAN 的環(huán)境模型方法在CGAN 模型訓(xùn)練穩(wěn)定收斂后,僅使用其中的生成器G 捕捉得到的數(shù)據(jù)預(yù)測分布;圖5(c)為使用CVAE方法進(jìn)行模型訓(xùn)練收斂后,在同樣條件變量下捕捉得到的數(shù)據(jù)預(yù)測分布;圖5(d)為使用NN 方法在模型訓(xùn)練收斂后的數(shù)據(jù)預(yù)測分布.從圖5 可以看出,在相同條件變量的限定下,基于CGAN 的環(huán)境模型學(xué)習(xí)方法相比使用CVAE、NN 方法捕捉數(shù)據(jù)分布的方法,具有較好的表現(xiàn)性能,不僅可以生成與真實(shí)數(shù)據(jù)分布高度相似的樣本,高效地捕捉聯(lián)合分布,在捕捉邊緣概率分布方面也可得到較好結(jié)果.使用CVAE方法雖然可以學(xué)習(xí)到邊緣分布的大體分布是雙峰的,但并不能很好地捕捉到數(shù)據(jù)聯(lián)合分布,最終捕捉到的結(jié)果為三核高斯分布,且每個高斯核的數(shù)據(jù)相對集中.以上結(jié)果是由于CVAE 中使用的變分方法引入了決定性偏置,優(yōu)化的是對數(shù)似然下界而不是似然度本身,導(dǎo)致了變分自編碼器生成的實(shí)例比條件生成對抗網(wǎng)絡(luò)生成的更模糊,進(jìn)而會導(dǎo)致概率較小的數(shù)據(jù)很難捕捉到.

    圖5 不同方法的生成數(shù)據(jù)對比Fig.5 Comparison of data generated by different methods

    綜上,本文所提的基于CGAN 的環(huán)境模型學(xué)習(xí)方法可以用來學(xué)習(xí)強(qiáng)化學(xué)習(xí)中的環(huán)境模型,并能夠取得較好結(jié)果,且能較快收斂.

    4 結(jié)語

    本文將深度強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中面臨的瓶頸問題作為研究背景,對已有模型化強(qiáng)化學(xué)習(xí)進(jìn)行詳細(xì)研究,在條件生成對抗網(wǎng)絡(luò)的基礎(chǔ)上,提出一種基于條件生成對抗網(wǎng)絡(luò)的模型化策略搜索強(qiáng)化學(xué)習(xí)方法.該方法首先利用條件生成對抗網(wǎng)絡(luò)對環(huán)境中的狀態(tài)轉(zhuǎn)移函數(shù)進(jìn)行學(xué)習(xí),再利用經(jīng)典策略學(xué)習(xí)方法尋找最優(yōu)策略.通過實(shí)驗(yàn)驗(yàn)證了該方法能夠很好地捕捉到狀態(tài)轉(zhuǎn)移函數(shù)的數(shù)據(jù)分布,為策略學(xué)習(xí)提供充足的學(xué)習(xí)樣本.

    猜你喜歡
    變量樣本狀態(tài)
    抓住不變量解題
    用樣本估計總體復(fù)習(xí)點(diǎn)撥
    也談分離變量
    狀態(tài)聯(lián)想
    推動醫(yī)改的“直銷樣本”
    生命的另一種狀態(tài)
    隨機(jī)微分方程的樣本Lyapunov二次型估計
    熱圖
    家庭百事通(2016年3期)2016-03-14 08:07:17
    堅持是成功前的狀態(tài)
    山東青年(2016年3期)2016-02-28 14:25:52
    村企共贏的樣本
    999久久久国产精品视频| 欧美老熟妇乱子伦牲交| 黄色视频,在线免费观看| a在线观看视频网站| 精品无人区乱码1区二区| 法律面前人人平等表现在哪些方面| 国产精品自产拍在线观看55亚洲| 亚洲无线在线观看| 露出奶头的视频| 视频区欧美日本亚洲| 国产一区二区三区在线臀色熟女| 变态另类丝袜制服| 又大又爽又粗| 成熟少妇高潮喷水视频| 欧美 亚洲 国产 日韩一| 黄色 视频免费看| 国产不卡一卡二| 国产又色又爽无遮挡免费看| 久久久精品欧美日韩精品| 欧美日韩中文字幕国产精品一区二区三区 | 麻豆久久精品国产亚洲av| 美女免费视频网站| 国产精品精品国产色婷婷| 欧美成狂野欧美在线观看| 99久久综合精品五月天人人| 国产亚洲精品一区二区www| 日本黄色视频三级网站网址| 国产又爽黄色视频| 免费观看人在逋| 欧美日韩福利视频一区二区| 熟女少妇亚洲综合色aaa.| 免费一级毛片在线播放高清视频 | 大陆偷拍与自拍| 国产精品久久久久久人妻精品电影| 国产精品爽爽va在线观看网站 | 国产精品一区二区免费欧美| 国产亚洲欧美精品永久| 欧美中文综合在线视频| www.熟女人妻精品国产| 国产精品 欧美亚洲| 级片在线观看| 国产亚洲欧美精品永久| 国产精品 欧美亚洲| 精品午夜福利视频在线观看一区| 极品人妻少妇av视频| 欧美成人性av电影在线观看| 精品国产乱码久久久久久男人| 岛国视频午夜一区免费看| 久久中文看片网| 国产精品,欧美在线| 国产不卡一卡二| 久久狼人影院| 中文字幕人妻丝袜一区二区| 俄罗斯特黄特色一大片| 久久精品91无色码中文字幕| 日韩有码中文字幕| 午夜成年电影在线免费观看| 啦啦啦韩国在线观看视频| 日本三级黄在线观看| 国产精华一区二区三区| 制服诱惑二区| 午夜老司机福利片| 日本一区二区免费在线视频| 亚洲免费av在线视频| 黄色a级毛片大全视频| 9热在线视频观看99| 悠悠久久av| 国产蜜桃级精品一区二区三区| 国产精品免费一区二区三区在线| 亚洲人成电影观看| 九色国产91popny在线| 欧美激情久久久久久爽电影 | 叶爱在线成人免费视频播放| 欧美人与性动交α欧美精品济南到| 亚洲天堂国产精品一区在线| 国产亚洲av高清不卡| 99国产极品粉嫩在线观看| 村上凉子中文字幕在线| 两性午夜刺激爽爽歪歪视频在线观看 | 天天添夜夜摸| 欧美丝袜亚洲另类 | 精品卡一卡二卡四卡免费| 亚洲一区二区三区色噜噜| 国产精品久久久人人做人人爽| 亚洲七黄色美女视频| e午夜精品久久久久久久| 国产激情欧美一区二区| 亚洲 国产 在线| 亚洲熟妇中文字幕五十中出| 香蕉国产在线看| 成人18禁高潮啪啪吃奶动态图| 亚洲av片天天在线观看| 纯流量卡能插随身wifi吗| 日韩欧美三级三区| 国产色视频综合| 中文字幕最新亚洲高清| 激情视频va一区二区三区| 丰满的人妻完整版| 黄片大片在线免费观看| 9色porny在线观看| 成人av一区二区三区在线看| 精品乱码久久久久久99久播| www.www免费av| 色尼玛亚洲综合影院| 国产精品国产高清国产av| 丁香欧美五月| 99国产精品一区二区蜜桃av| 精品日产1卡2卡| 香蕉久久夜色| 亚洲第一av免费看| 久久亚洲真实| 天堂影院成人在线观看| 亚洲欧美日韩另类电影网站| 亚洲男人天堂网一区| 亚洲五月天丁香| 国产极品粉嫩免费观看在线| 中文字幕av电影在线播放| 黄色 视频免费看| 欧美日本中文国产一区发布| 国产av又大| 黑人欧美特级aaaaaa片| 欧美一区二区精品小视频在线| 欧美黄色片欧美黄色片| 高清毛片免费观看视频网站| 高清在线国产一区| 一二三四在线观看免费中文在| 国产xxxxx性猛交| 天天添夜夜摸| 很黄的视频免费| 国产成人精品久久二区二区免费| 久久欧美精品欧美久久欧美| 欧美日韩亚洲综合一区二区三区_| 日本vs欧美在线观看视频| 国产成人免费无遮挡视频| 日本免费一区二区三区高清不卡 | 亚洲一区高清亚洲精品| 欧美绝顶高潮抽搐喷水| 国产真人三级小视频在线观看| 18禁美女被吸乳视频| 国产亚洲欧美98| 黑人操中国人逼视频| 嫩草影视91久久| 中文字幕人妻丝袜一区二区| 久久久久久国产a免费观看| 在线天堂中文资源库| 国产精品一区二区精品视频观看| 少妇熟女aⅴ在线视频| 欧美不卡视频在线免费观看 | 两性夫妻黄色片| 成人国语在线视频| 日日夜夜操网爽| 在线观看免费视频日本深夜| 无遮挡黄片免费观看| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲人成电影观看| 欧美乱码精品一区二区三区| 国产精品免费一区二区三区在线| 在线av久久热| 动漫黄色视频在线观看| 国产亚洲精品久久久久5区| 国产精品 欧美亚洲| 99久久久亚洲精品蜜臀av| 免费高清在线观看日韩| 亚洲男人的天堂狠狠| 成人特级黄色片久久久久久久| 琪琪午夜伦伦电影理论片6080| 国产精品亚洲av一区麻豆| 亚洲精品一卡2卡三卡4卡5卡| 99在线人妻在线中文字幕| 久久久国产成人精品二区| 在线观看66精品国产| 国产一区二区在线av高清观看| 久久久国产成人精品二区| 精品少妇一区二区三区视频日本电影| 国内毛片毛片毛片毛片毛片| 看免费av毛片| 久久精品aⅴ一区二区三区四区| 69精品国产乱码久久久| 亚洲最大成人中文| 色综合站精品国产| 国产日韩一区二区三区精品不卡| 亚洲第一av免费看| 真人一进一出gif抽搐免费| netflix在线观看网站| 亚洲片人在线观看| 精品国产一区二区久久| 亚洲 欧美 日韩 在线 免费| 51午夜福利影视在线观看| 欧美大码av| 嫩草影视91久久| 久久久久久久久久久久大奶| 欧美乱码精品一区二区三区| 一二三四社区在线视频社区8| 亚洲免费av在线视频| 在线观看免费视频日本深夜| а√天堂www在线а√下载| 国产亚洲精品综合一区在线观看 | 日韩免费av在线播放| 少妇裸体淫交视频免费看高清 | 亚洲aⅴ乱码一区二区在线播放 | 免费在线观看日本一区| 男女做爰动态图高潮gif福利片 | 97碰自拍视频| 香蕉国产在线看| 日日摸夜夜添夜夜添小说| 国产一区在线观看成人免费| 真人一进一出gif抽搐免费| 99国产精品一区二区三区| 岛国视频午夜一区免费看| 免费不卡黄色视频| 国产一区二区三区视频了| 制服丝袜大香蕉在线| 人人澡人人妻人| 亚洲美女黄片视频| 一区在线观看完整版| 欧美性长视频在线观看| 90打野战视频偷拍视频| 黑人欧美特级aaaaaa片| 国产av一区二区精品久久| 18禁黄网站禁片午夜丰满| 亚洲av五月六月丁香网| 精品久久久久久久毛片微露脸| 国产高清videossex| 97碰自拍视频| 男人操女人黄网站| 一二三四在线观看免费中文在| 一个人免费在线观看的高清视频| 中文字幕久久专区| 久久中文看片网| 久久精品国产99精品国产亚洲性色 | 国产91精品成人一区二区三区| 两人在一起打扑克的视频| 精品国产超薄肉色丝袜足j| 性色av乱码一区二区三区2| 日韩大尺度精品在线看网址 | 成人18禁高潮啪啪吃奶动态图| 午夜福利18| 国产精华一区二区三区| 一级a爱视频在线免费观看| 淫秽高清视频在线观看| 免费观看精品视频网站| 在线观看免费视频网站a站| 别揉我奶头~嗯~啊~动态视频| 97人妻天天添夜夜摸| 露出奶头的视频| 欧美久久黑人一区二区| 一区二区日韩欧美中文字幕| 久久精品国产99精品国产亚洲性色 | 在线永久观看黄色视频| 可以免费在线观看a视频的电影网站| 黄色 视频免费看| 亚洲黑人精品在线| 亚洲av成人一区二区三| 天堂动漫精品| xxx96com| 国产欧美日韩一区二区三| 日本撒尿小便嘘嘘汇集6| 午夜两性在线视频| 亚洲精品中文字幕一二三四区| 久久 成人 亚洲| 久久精品国产清高在天天线| www国产在线视频色| 女人被躁到高潮嗷嗷叫费观| 高清毛片免费观看视频网站| 久热爱精品视频在线9| 亚洲性夜色夜夜综合| 精品国产乱子伦一区二区三区| av欧美777| 女人精品久久久久毛片| 波多野结衣高清无吗| 一本久久中文字幕| 久热爱精品视频在线9| 欧美日韩乱码在线| 久久精品国产综合久久久| 欧美黑人欧美精品刺激| 九色国产91popny在线| 在线观看一区二区三区| 成年女人毛片免费观看观看9| 黄网站色视频无遮挡免费观看| 国产91精品成人一区二区三区| 禁无遮挡网站| 91大片在线观看| 成人av一区二区三区在线看| 在线天堂中文资源库| 午夜精品久久久久久毛片777| 精品久久久久久久人妻蜜臀av | 精品免费久久久久久久清纯| 多毛熟女@视频| 国产一级毛片七仙女欲春2 | 高清黄色对白视频在线免费看| 日韩欧美国产在线观看| 亚洲一区二区三区色噜噜| 一个人免费在线观看的高清视频| 欧美黄色淫秽网站| 又黄又爽又免费观看的视频| 欧美午夜高清在线| 国产色视频综合| 精品国产国语对白av| 啦啦啦免费观看视频1| 精品国产一区二区久久| 亚洲全国av大片| 一区二区三区精品91| 又黄又爽又免费观看的视频| 日日干狠狠操夜夜爽| 亚洲国产日韩欧美精品在线观看 | 两性夫妻黄色片| 亚洲欧美精品综合一区二区三区| 国产成人精品久久二区二区91| 国产熟女xx| 人人妻人人爽人人添夜夜欢视频| 夜夜夜夜夜久久久久| 国产激情欧美一区二区| 国产精品久久电影中文字幕| 免费无遮挡裸体视频| АⅤ资源中文在线天堂| 国产麻豆69| 免费在线观看视频国产中文字幕亚洲| 亚洲片人在线观看| 99久久国产精品久久久| 亚洲欧美激情在线| 亚洲一码二码三码区别大吗| 久久 成人 亚洲| 欧美黄色片欧美黄色片| 无人区码免费观看不卡| 一本大道久久a久久精品| 国产私拍福利视频在线观看| 欧美日韩一级在线毛片| 国产免费男女视频| 变态另类丝袜制服| 欧美日韩亚洲国产一区二区在线观看| 成人国产一区最新在线观看| 高清毛片免费观看视频网站| 成人永久免费在线观看视频| 亚洲成人国产一区在线观看| 成人三级做爰电影| 97碰自拍视频| 国产一区二区三区在线臀色熟女| bbb黄色大片| 亚洲专区字幕在线| 久久国产乱子伦精品免费另类| 亚洲人成77777在线视频| 成熟少妇高潮喷水视频| 亚洲人成网站在线播放欧美日韩| 亚洲精华国产精华精| 人人澡人人妻人| 日本欧美视频一区| 禁无遮挡网站| 国产1区2区3区精品| 天天躁狠狠躁夜夜躁狠狠躁| 色精品久久人妻99蜜桃| 精品久久久久久久人妻蜜臀av | 女生性感内裤真人,穿戴方法视频| 欧美中文日本在线观看视频| 九色亚洲精品在线播放| 亚洲性夜色夜夜综合| 亚洲情色 制服丝袜| 波多野结衣av一区二区av| 日韩有码中文字幕| 亚洲电影在线观看av| 两个人视频免费观看高清| 国产1区2区3区精品| 88av欧美| 十分钟在线观看高清视频www| 纯流量卡能插随身wifi吗| 日韩高清综合在线| 成人国产综合亚洲| 制服丝袜大香蕉在线| 亚洲欧洲精品一区二区精品久久久| 亚洲欧美日韩无卡精品| 中文字幕人妻熟女乱码| 激情在线观看视频在线高清| 黄色女人牲交| 精品日产1卡2卡| 国产男靠女视频免费网站| 久久午夜亚洲精品久久| 亚洲va日本ⅴa欧美va伊人久久| 黑丝袜美女国产一区| 国产成人av激情在线播放| 两个人免费观看高清视频| 女人精品久久久久毛片| 亚洲 欧美 日韩 在线 免费| 91av网站免费观看| 欧美国产日韩亚洲一区| 免费看a级黄色片| 操出白浆在线播放| 日本黄色视频三级网站网址| 久久亚洲真实| 欧美性长视频在线观看| 亚洲性夜色夜夜综合| 日日爽夜夜爽网站| 欧美在线黄色| 免费不卡黄色视频| 欧美亚洲日本最大视频资源| 亚洲精华国产精华精| 亚洲av成人一区二区三| 亚洲,欧美精品.| 非洲黑人性xxxx精品又粗又长| 亚洲欧美激情在线| 国产精品久久久久久人妻精品电影| 波多野结衣巨乳人妻| 巨乳人妻的诱惑在线观看| 国产成人一区二区三区免费视频网站| 成人国产综合亚洲| 久久久久久国产a免费观看| 欧美中文综合在线视频| 欧美+亚洲+日韩+国产| 久久精品91无色码中文字幕| 成人永久免费在线观看视频| 国产一区二区在线av高清观看| 在线播放国产精品三级| 亚洲国产精品999在线| 国产国语露脸激情在线看| 亚洲熟女毛片儿| 日本精品一区二区三区蜜桃| 老司机福利观看| 国产欧美日韩一区二区三区在线| 桃红色精品国产亚洲av| 欧美激情久久久久久爽电影 | 级片在线观看| 国产在线观看jvid| x7x7x7水蜜桃| 黄色 视频免费看| 99riav亚洲国产免费| 757午夜福利合集在线观看| 久久久久久大精品| 精品国内亚洲2022精品成人| 俄罗斯特黄特色一大片| 老司机在亚洲福利影院| 香蕉国产在线看| 18禁观看日本| a级毛片在线看网站| 9191精品国产免费久久| 国产亚洲精品av在线| 此物有八面人人有两片| 18美女黄网站色大片免费观看| 不卡av一区二区三区| 岛国视频午夜一区免费看| 欧美日韩亚洲国产一区二区在线观看| 男女午夜视频在线观看| 国产亚洲精品久久久久久毛片| 18禁美女被吸乳视频| 777久久人妻少妇嫩草av网站| 午夜免费激情av| 色哟哟哟哟哟哟| 亚洲人成伊人成综合网2020| 久久狼人影院| 人人澡人人妻人| 国产精品九九99| 女人爽到高潮嗷嗷叫在线视频| 美女高潮到喷水免费观看| 精品一区二区三区av网在线观看| 亚洲专区中文字幕在线| 国产真人三级小视频在线观看| 国产成人av教育| 亚洲一区中文字幕在线| 夜夜爽天天搞| 一级a爱视频在线免费观看| 久久久久久久久久久久大奶| 97人妻天天添夜夜摸| 最近最新免费中文字幕在线| 色老头精品视频在线观看| 国产av精品麻豆| 脱女人内裤的视频| 中文字幕人妻丝袜一区二区| 国产aⅴ精品一区二区三区波| 国产一卡二卡三卡精品| 国产av一区在线观看免费| 精品一品国产午夜福利视频| 色综合欧美亚洲国产小说| 午夜福利18| 日本撒尿小便嘘嘘汇集6| 精品人妻1区二区| 精品无人区乱码1区二区| 欧美日韩黄片免| 高清毛片免费观看视频网站| 久久香蕉激情| 韩国av一区二区三区四区| 亚洲精品av麻豆狂野| 久久香蕉国产精品| 看黄色毛片网站| 久久精品人人爽人人爽视色| 在线国产一区二区在线| 男女床上黄色一级片免费看| 国产人伦9x9x在线观看| 欧美激情 高清一区二区三区| 91麻豆av在线| 日本五十路高清| 最新在线观看一区二区三区| 日韩免费av在线播放| 一级作爱视频免费观看| 伊人久久大香线蕉亚洲五| 国产精品久久视频播放| 久久精品亚洲熟妇少妇任你| videosex国产| 国产人伦9x9x在线观看| 日韩欧美一区二区三区在线观看| 日本三级黄在线观看| 精品人妻在线不人妻| 熟女少妇亚洲综合色aaa.| 一a级毛片在线观看| 一卡2卡三卡四卡精品乱码亚洲| 亚洲国产看品久久| 亚洲av电影不卡..在线观看| 99re在线观看精品视频| 欧美一级毛片孕妇| 国产成人系列免费观看| 桃色一区二区三区在线观看| 久久人人精品亚洲av| 欧美黄色淫秽网站| 亚洲欧美日韩无卡精品| 欧美一级毛片孕妇| 成人三级黄色视频| 操美女的视频在线观看| 日韩免费av在线播放| 日本撒尿小便嘘嘘汇集6| 国产蜜桃级精品一区二区三区| 精品国内亚洲2022精品成人| 男女之事视频高清在线观看| 亚洲精品国产区一区二| 久久久久国产一级毛片高清牌| 国产91精品成人一区二区三区| 久久 成人 亚洲| 人成视频在线观看免费观看| 精品电影一区二区在线| 成人亚洲精品av一区二区| 亚洲精品美女久久av网站| 熟妇人妻久久中文字幕3abv| 欧美成狂野欧美在线观看| 在线视频色国产色| 两个人看的免费小视频| 日本免费a在线| 久久久久久免费高清国产稀缺| 亚洲成a人片在线一区二区| 免费av毛片视频| 精品高清国产在线一区| 亚洲精品中文字幕一二三四区| 亚洲一区二区三区色噜噜| 久久精品国产99精品国产亚洲性色 | 亚洲熟妇熟女久久| 激情在线观看视频在线高清| 可以在线观看的亚洲视频| 亚洲国产看品久久| 免费一级毛片在线播放高清视频 | 亚洲精品国产区一区二| 91麻豆av在线| 黄色视频不卡| 美女国产高潮福利片在线看| 国产熟女午夜一区二区三区| 男女下面进入的视频免费午夜 | 日韩精品中文字幕看吧| 亚洲一卡2卡3卡4卡5卡精品中文| 日韩 欧美 亚洲 中文字幕| 国产精品电影一区二区三区| 免费人成视频x8x8入口观看| 自线自在国产av| 国产高清videossex| 国产精品av久久久久免费| 亚洲人成网站在线播放欧美日韩| 老司机午夜十八禁免费视频| 在线免费观看的www视频| 国产精品亚洲美女久久久| 如日韩欧美国产精品一区二区三区| 亚洲第一av免费看| 丁香六月欧美| 亚洲精品久久国产高清桃花| 亚洲少妇的诱惑av| 亚洲在线自拍视频| 亚洲av熟女| 成人国产一区最新在线观看| 午夜久久久久精精品| 中文字幕另类日韩欧美亚洲嫩草| 一区二区三区激情视频| 久久草成人影院| 19禁男女啪啪无遮挡网站| 亚洲精品一卡2卡三卡4卡5卡| 日本vs欧美在线观看视频| 国产私拍福利视频在线观看| 免费在线观看视频国产中文字幕亚洲| 久久香蕉激情| av视频免费观看在线观看| netflix在线观看网站| 久久九九热精品免费| 中文字幕人成人乱码亚洲影| 中文字幕高清在线视频| 一区二区三区精品91| 免费少妇av软件| 中文字幕久久专区| 电影成人av| 神马国产精品三级电影在线观看 | 亚洲av电影不卡..在线观看| 91成年电影在线观看| 亚洲欧美激情在线| 十分钟在线观看高清视频www| 天堂√8在线中文| 黄色成人免费大全| 成人国语在线视频| 国产精品九九99| 国产亚洲精品久久久久久毛片| 老司机午夜福利在线观看视频| 女生性感内裤真人,穿戴方法视频| 一级黄色大片毛片| 两人在一起打扑克的视频| 长腿黑丝高跟| 一级黄色大片毛片| 老司机午夜福利在线观看视频| 久久久久久久午夜电影| 日韩中文字幕欧美一区二区| 狂野欧美激情性xxxx| av有码第一页| 日本黄色视频三级网站网址| 亚洲精品国产一区二区精华液| 天天添夜夜摸| 99久久久亚洲精品蜜臀av| 亚洲欧洲精品一区二区精品久久久| 18禁美女被吸乳视频|