• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    模型化強(qiáng)化學(xué)習(xí)研究綜述*

    2020-06-11 01:03:00趙婷婷韓雅杰任德華陳亞瑞
    計算機(jī)與生活 2020年6期
    關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)樣本狀態(tài)

    趙婷婷,孔 樂,韓雅杰,任德華,陳亞瑞

    天津科技大學(xué) 人工智能學(xué)院,天津300467

    1 引言

    深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)作為機(jī)器學(xué)習(xí)領(lǐng)域重要研究方向之一,是將深度學(xué)習(xí)的智能感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,直接通過對高維感知輸入的學(xué)習(xí)最終實(shí)現(xiàn)智能體的自主行為控制[1],描述的是智能體為實(shí)現(xiàn)任務(wù)而連續(xù)作出決策控制的過程。DRL已經(jīng)在無人駕駛[2-3]、智能交通系統(tǒng)[4]、機(jī)器人系統(tǒng)[5-6]、游戲[7]等領(lǐng)域取得了突破性進(jìn)展,被認(rèn)為是最有希望實(shí)現(xiàn)通用人工智能這個目標(biāo)的研究領(lǐng)域之一。

    深度強(qiáng)化學(xué)習(xí)具有一定的自主學(xué)習(xí)能力[8],無需給定先驗(yàn)知識,只需與環(huán)境進(jìn)行不斷交互獲得經(jīng)驗(yàn)指數(shù),最終找到適合當(dāng)前狀態(tài)的最優(yōu)動作選擇策略,取得整個決策過程的最大累積獎賞[9],基本框架如圖1 所示(因?yàn)樯疃葟?qiáng)化學(xué)習(xí)與強(qiáng)化學(xué)習(xí)兩者本質(zhì)相同,本綜述將交替使用深度強(qiáng)化學(xué)習(xí)與強(qiáng)化學(xué)習(xí))。根據(jù)智能體所交互環(huán)境信息的利用方法,強(qiáng)化學(xué)習(xí)可分為無模型強(qiáng)化學(xué)習(xí)(model-free reinforcement learning)和模型化強(qiáng)化學(xué)習(xí)(model-based reinforcement learning)兩大類[10]。

    Fig.1 Framework of reinforcement learning圖1 強(qiáng)化學(xué)習(xí)基本框架

    無模型強(qiáng)化學(xué)習(xí)方法是智能體通過不斷探索環(huán)境,不斷試錯,學(xué)習(xí)得到最優(yōu)策略的方法[9]。為了達(dá)到預(yù)期的學(xué)習(xí)效果,無模型強(qiáng)化學(xué)習(xí)方法需要與環(huán)境進(jìn)行大量的交互才能保證智能體的充分學(xué)習(xí)。無模型方法通常需要大量訓(xùn)練樣本及訓(xùn)練時間,例如MuJoCo[11]根據(jù)任務(wù)的不同需要10 萬以上的學(xué)習(xí)步數(shù)[12];Deepmind 團(tuán)隊(duì)提出的學(xué)習(xí)酷跑的策略,需要64個GPU 學(xué) 習(xí)100 h 以 上[13];DeepMind 提 出 的RainbowDQN 需要1 800 萬幀Atari 游戲界面或大約83 h游戲視頻對模型訓(xùn)練學(xué)習(xí),而人類掌握游戲所用時間遠(yuǎn)遠(yuǎn)少于此算法[14]。然而,在實(shí)際物理場景中,收集充分的學(xué)習(xí)樣本不僅需要花費(fèi)大量時間與財力,甚至可能損壞智能系統(tǒng)。故而樣本利用率及學(xué)習(xí)效率成為無模型強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中的重要瓶頸問題。

    模型化強(qiáng)化學(xué)習(xí)方法首先需要對環(huán)境建模,得到環(huán)境模型后,此類方法無需與真實(shí)環(huán)境交互,可直接利用學(xué)得的環(huán)境模型生成所需訓(xùn)練樣本進(jìn)行策略學(xué)習(xí),從而在一定程度上緩解樣本利用率低及學(xué)習(xí)效率低的問題。另外,如果所學(xué)得的環(huán)境模型足夠精確,智能體就可根據(jù)該模型在其從未訪問過的區(qū)域進(jìn)行策略搜索。然而,學(xué)得的環(huán)境模型與真實(shí)環(huán)境間往往存在模型誤差,難以保證算法的最優(yōu)解漸近收斂[10]。因此,如何獲得精準(zhǔn)的環(huán)境模型是模型化強(qiáng)化學(xué)習(xí)領(lǐng)域的研究重點(diǎn),這也是本文將要探討的主要內(nèi)容。

    2 強(qiáng)化學(xué)習(xí)背景知識

    2.1 馬爾可夫決策過程

    強(qiáng)化學(xué)習(xí)任務(wù)通常建模為馬爾可夫決策過程(Markov decision process,MDP)描述(S,A,PT,PI,r,γ)[9],其中S表示智能體的狀態(tài)空間;A表示智能體的可選動作空間,狀態(tài)S和動作A均可以是離散空間,也可以是連續(xù)空間,這取決于具體應(yīng)用問題;PT(s′|s,a)表示當(dāng)前狀態(tài)st下執(zhí)行動作at后,轉(zhuǎn)移到下一狀態(tài)st+1的狀態(tài)轉(zhuǎn)移概率密度函數(shù);PI(s)表示選擇初始狀態(tài)s1的概率;r(st,at,st+1)表示當(dāng)前狀態(tài)st執(zhí)行動作at后轉(zhuǎn)移到下一狀態(tài)st+1的瞬時獎賞;γ(0 <γ<1)表示未來獎賞折扣因子。

    如圖2 是MDP 動態(tài)過程:首先,某智能體(agent)從初始狀態(tài)概率分布p(s1)中隨機(jī)選擇狀態(tài)s1后,依據(jù)當(dāng)前策略π選擇動作a1,然后智能體根據(jù)狀態(tài)轉(zhuǎn)移密度函數(shù)p(s2|s1,a1)從狀態(tài)s1隨機(jī)轉(zhuǎn)移到s2,獲得此次狀態(tài)轉(zhuǎn)移的瞬時獎賞r(s1,a1,s2)。此過程重復(fù)T次,可得到一條路徑,T為時間步長。

    Fig.2 Markov decision process圖2 馬爾可夫決策過程

    強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)策略π*,從而最大化期望累積回報。

    其中,累積期望回報表示為Jπ:=∫p(h)R(h)dh,p(h)=表示路徑的概率密度函數(shù),p(st+1|st,at)表示當(dāng)前狀態(tài)st執(zhí)行動作at到達(dá)下一狀態(tài)st+1的概率;累積回報,其中γ是折扣因子,通常0 <γ<1,折扣因子γ決定了回報的時間尺度。

    2.2 模型化強(qiáng)化學(xué)習(xí)和無模型強(qiáng)化學(xué)習(xí)

    根據(jù)智能體與環(huán)境交互模式的不同,強(qiáng)化學(xué)習(xí)可分為模型化強(qiáng)化學(xué)習(xí)與無模型強(qiáng)化學(xué)習(xí),二者的區(qū)別主要是智能體是否已知或需要計算環(huán)境動態(tài)模型,即狀態(tài)轉(zhuǎn)移密度函數(shù)P(st+1|st,at)[15-16],如圖3所示。

    Fig.3 Two types of reinforcement learning圖3 兩種強(qiáng)化學(xué)習(xí)模式

    無模型強(qiáng)化學(xué)習(xí)中,智能體直接與真實(shí)環(huán)境交互獲得數(shù)據(jù)進(jìn)行策略學(xué)習(xí)。此類方法不需要擬合環(huán)境模型,也不存在模型誤差,因而實(shí)現(xiàn)簡單,應(yīng)用廣泛;然而無模型強(qiáng)化學(xué)習(xí)方法學(xué)到的策略只針對特定問題,一次只能學(xué)習(xí)一項(xiàng)具體任務(wù),當(dāng)任務(wù)更換時需重新收集大量樣本進(jìn)行學(xué)習(xí)[17];此外進(jìn)行策略學(xué)習(xí)時,智能體需要訓(xùn)練學(xué)習(xí)大量樣本才可能取得良好的性能表現(xiàn),這會降低樣本利用率[17],造成資源浪費(fèi)。重復(fù)使用樣本(importance sampling)可以提高樣本利用率,但樣本重復(fù)使用技術(shù)需要提前設(shè)定學(xué)習(xí)樣本的使用方式,若樣本利用不當(dāng),會造成學(xué)習(xí)目標(biāo)方差大、收斂慢的問題[15]。近年,隨著硬件計算能力的提升,一定程度上弱化了樣本利用率低的問題,但并沒有從根本上解決樣本利用率低的問題。

    模型化強(qiáng)化學(xué)習(xí)方法首先利用智能體與環(huán)境交互獲得的數(shù)據(jù)學(xué)習(xí)環(huán)境模型,然后收集所得模型產(chǎn)生的訓(xùn)練樣本,最后使用強(qiáng)化學(xué)習(xí)算法優(yōu)化動作選擇策略,完成任務(wù)。整個過程不涉及提前設(shè)計樣本使用模式的問題[18]。此外,相比無模型強(qiáng)化學(xué)習(xí)中智能體必須與真實(shí)環(huán)境交互才能得到其他未知狀態(tài)值的情況,模型化強(qiáng)化學(xué)習(xí)中,環(huán)境模型一旦擬合,智能體就無需再與真實(shí)環(huán)境交互,可直接利用學(xué)到的模型預(yù)測未來狀態(tài),極大提高數(shù)據(jù)利用率。另外,環(huán)境模型通常包含外界環(huán)境模型與系統(tǒng)自身模型,如果能夠得到一個精準(zhǔn)的環(huán)境模型,便意味著智能體得到了一個較好的描述自身系統(tǒng)的模型,當(dāng)外界環(huán)境變化時,系統(tǒng)自身的模型通常是不變的,因此只需要簡單學(xué)習(xí),環(huán)境模型便可適應(yīng)新的外部環(huán)境,使智能體可以利用學(xué)到的模型快速進(jìn)行推理。因此,模型化強(qiáng)化學(xué)習(xí)中學(xué)得的環(huán)境模型易于在不同任務(wù)及環(huán)境間進(jìn)行遷移,具有較強(qiáng)的泛化能力[17,19]。

    綜上,如果環(huán)境模型能被準(zhǔn)確建模,模型化強(qiáng)化學(xué)習(xí)將具有以上所述所有優(yōu)勢。然而,面對復(fù)雜的狀態(tài)、動作空間,在有限可用樣本的情況下,準(zhǔn)確估計環(huán)境模型是極具挑戰(zhàn)的。本文將以如何學(xué)習(xí)環(huán)境模型為核心內(nèi)容,介紹并分析現(xiàn)有模型化強(qiáng)化學(xué)習(xí)方法。

    3 模型化強(qiáng)化學(xué)習(xí)方法

    Abbeel 等指出在確定性環(huán)境下,模型化強(qiáng)化學(xué)習(xí)無需精確的環(huán)境估計模型就可完成任務(wù)[20]。然而,實(shí)際應(yīng)用中面臨的環(huán)境往往是復(fù)雜的、動態(tài)的,因而對環(huán)境建模得到的狀態(tài)轉(zhuǎn)移模型與真實(shí)環(huán)境間存在模型誤差,此時使用不準(zhǔn)確的環(huán)境模型產(chǎn)生的數(shù)據(jù)進(jìn)行策略學(xué)習(xí)還會產(chǎn)生更大的誤差,從而帶來雙模誤差。為減小模型誤差,提高模型準(zhǔn)確性,相關(guān)研究提出了很多解決辦法,如Dyna模型化強(qiáng)化學(xué)習(xí)框架[21]、學(xué)習(xí)控制的概率推理方法[22]、基于最小二乘條件密度估計方法的模型化策略搜索算法[15]、嵌入控制方法[23]、基于神經(jīng)網(wǎng)絡(luò)動力學(xué)和無模型微調(diào)的模型化深度強(qiáng)化學(xué)習(xí)方法[24]、世界模型[25]等。本章將圍繞上述相關(guān)研究進(jìn)行討論,分別從它們的主要思想、具體流程、方法優(yōu)缺點(diǎn)進(jìn)行詳細(xì)綜述。

    3.1 Dyna 算法框架

    Dyna 算法框架是將模型化強(qiáng)化學(xué)習(xí)和無模型強(qiáng)化學(xué)習(xí)結(jié)合,既從模型中學(xué)習(xí),也從與環(huán)境交互的經(jīng)歷中學(xué)習(xí),從而更新價值函數(shù)或策略函數(shù)的一類方法[21]。Dyna 算法框架并不是一個具體的強(qiáng)化學(xué)習(xí)算法,而是一類算法框架。

    在Dyna 算法框架中,訓(xùn)練是在兩個步驟之間迭代進(jìn)行的:首先,使用當(dāng)前策略,從與環(huán)境的交互中收集數(shù)據(jù);然后,利用收集到的數(shù)據(jù)學(xué)習(xí)動態(tài)模型;其次,用所學(xué)的環(huán)境動態(tài)模型生成數(shù)據(jù);最后,使用生成數(shù)據(jù)對策略進(jìn)行更新。具體實(shí)現(xiàn)流程如算法1 所示。

    算法1Dyna算法

    輸入:隨機(jī)決策行為數(shù)據(jù)。

    輸出:算法得到的策略以及相應(yīng)的獎勵函數(shù)、狀態(tài)轉(zhuǎn)移模型。

    步驟1初始化價值函數(shù)或策略函數(shù),獎勵模型r(st,at,st+1)和狀態(tài)轉(zhuǎn)移模型P(st+1|st,at);

    步驟2依據(jù)當(dāng)前策略選擇動作a,更新價值函數(shù)或策略函數(shù),更新狀態(tài)轉(zhuǎn)移模型P(st+1|st,at)和獎勵模型r(st,at,st+1);

    步驟2.1隨機(jī)選擇狀態(tài)s和動作a,并依據(jù)狀態(tài)轉(zhuǎn)移模型P(st+1|st,at) 得到st+1,基于模型r(st,at,st+1)得到瞬時獎勵r;

    步驟2.2更新價值函數(shù)或策略函數(shù)。

    算法1 中步驟2 可使用經(jīng)典Q-Learning 系列的價值函數(shù)[26]、基于Actor-Critic 的策略函數(shù)[27]進(jìn)行策略選擇?;贒yna 框架的模型化強(qiáng)化學(xué)習(xí)方法是該領(lǐng)域的主流方法,具體算法包括經(jīng)典的學(xué)習(xí)控制的概率推理方法[22]及基于最小二乘條件密度估計方法的模型化策略參數(shù)探索方法[15],下面詳細(xì)介紹這兩個算法。

    3.1.1 學(xué)習(xí)控制的概率推理方法

    模型化強(qiáng)化學(xué)習(xí)最大的問題是對環(huán)境建模時會產(chǎn)生模型誤差。業(yè)界就如何減小模型誤差,提高模型準(zhǔn)確性展開了大量研究。學(xué)習(xí)控制的概率推理方法(probabilistic inference for learning control,PILCO)是該領(lǐng)域最經(jīng)典的方法之一[15,28],其主要思想是將環(huán)境中的狀態(tài)轉(zhuǎn)移模型建模為高斯過程(Gaussian process,GP)[29],即以狀態(tài)-動作對作為輸入,輸出是關(guān)于下一狀態(tài)的概率分布?;贕P 的狀態(tài)轉(zhuǎn)移概率模型不僅可以捕捉到狀態(tài)轉(zhuǎn)移的不確定性,還將模型不確定性集成到了長期規(guī)劃和決策中[30]。PILCO算法的具體流程如算法2 所示。

    算法2PILCO 算法

    輸入:隨機(jī)決策行為數(shù)據(jù)。

    輸出:算法得到的策略以及相應(yīng)狀態(tài)轉(zhuǎn)移模型。

    步驟1隨機(jī)收集樣本數(shù)據(jù)并初始化策略參數(shù)ρ;

    步驟2使用收集的樣本,通過無參數(shù)的GP 學(xué)習(xí)狀態(tài)轉(zhuǎn)移模型;

    步驟3使用當(dāng)前策略π與上述模型交互,通過確定性近似推理評估累積期望回報J(ρ);

    步驟4基于解析梯度的策略提升;

    步驟5更新策略π,π*←π(ρ*)。

    在隨機(jī)收集樣本后,通過無參數(shù)的GP 表示環(huán)境動態(tài)模型:

    其中,st、at分別表示t時刻的狀態(tài)和動作,μt+1=st+Ef[Δt]為均值,Σt=varf[Δt]為方差。

    隨后基于學(xué)到的環(huán)境動態(tài)模型將模型偏差納入策略評估中,通過確定性近似推理評估累積期望回報J(ρ):

    其中,c(xt)表示人為指定的獎勵函數(shù),T表示路徑長度。

    最后通過可解析的策略梯度進(jìn)行策略搜索并更新提升策略參數(shù)ρ。

    PILCO 算法在機(jī)器人控制等復(fù)雜的實(shí)際問題中得到了廣泛的應(yīng)用[30],也有相關(guān)研究針對PILCO 存在的問題提出了改進(jìn)算法,如可實(shí)現(xiàn)多任務(wù)策略搜索的PILCO 算法[31],以及面對復(fù)雜的高維度狀態(tài)空間的深度PILCO 算法[32]。上述基于PILCO 的改進(jìn)算法在不同方面改進(jìn)了其性能,但此類方法假設(shè)條件狀態(tài)轉(zhuǎn)移概率密度函數(shù)為高斯分布,狀態(tài)-動作聯(lián)合概率密度函數(shù)為高斯分布,且獎賞函數(shù)須為指定的指數(shù)形式以保證策略估計及策略梯度能夠解析地計算,這極大程度地限制了PILCO 算法在實(shí)際問題中的應(yīng)用。

    3.1.2 基于最小二乘條件密度估計方法的模型化策略搜索算法

    針對PILCO 算法存在的根本問題,Tangkaratt 等提出了基于最小二乘條件密度估計的模型化策略搜索算法(model-based policy gradients with parameterbased exploration by least-squares conditional density estimation,Mb-PGPE-LSCDE)[15]。該算法首先使用最小二乘條件密度估計方法(least-squares conditional density estimation,LSCDE)[18]學(xué)習(xí)狀態(tài)轉(zhuǎn)移模型,再利用基于參數(shù)探索的策略梯度算法(policy gradient with parameter-based exploration,PGPE)[33]進(jìn)行策略學(xué)習(xí)。學(xué)習(xí)流程如算法3 所示。

    算法3基于最小二乘條件密度估計的模型化策略搜索算法

    輸入:隨機(jī)決策行為數(shù)據(jù)。

    輸出:算法得到的策略以及相應(yīng)狀態(tài)轉(zhuǎn)移模型。

    步驟1智能體與環(huán)境交互,隨機(jī)收集轉(zhuǎn)移樣本;

    步驟2利用收集的樣本對環(huán)境建模得到狀態(tài)轉(zhuǎn)移模型;

    步驟3初始化當(dāng)前策略π和策略參數(shù)ρ;

    步驟4將學(xué)到的狀態(tài)轉(zhuǎn)移模型和當(dāng)前策略交替使用,生成足夠的樣本序列。

    智能體首先與環(huán)境交互進(jìn)行隨機(jī)采樣,并使用采樣得到的樣本,通過LSCDE 方法對環(huán)境建模得到:

    其中,φ(st,at,st+1)是基向量,α是M維參數(shù)向量,最小化下列平方誤差就可得到最優(yōu)參數(shù)α。

    在得到穩(wěn)定狀態(tài)轉(zhuǎn)移模型后,將該模型與當(dāng)前策略交替使用生成足夠的樣本序列,并使用PGPE 方法進(jìn)行策略搜索,更新策略參數(shù):

    式中,ε>0 表示學(xué)習(xí)率,J(ρ)表示含參累積期望回報。

    LSCDE 是一種非參擬合方法,相對比基于GP 的模型化方法,其最大的優(yōu)勢在于能擬合任意條件概率密度函數(shù)。此外,利用LSCDE 算法學(xué)到的狀態(tài)轉(zhuǎn)移模型易于生成樣本;能夠直接處理多維度的輸入-輸出問題[15];對異常值很魯棒;可以通過求解線性方程得到解析解;能夠以非參最優(yōu)速率收斂到真實(shí)條件概率密度函數(shù)[18]?;贚SCDE 的模型化策略搜索方法在采樣預(yù)算有限的情況下具有很好的性能,極大提高了樣本利用率,但難以處理高維度問題。

    3.2 基于神經(jīng)網(wǎng)絡(luò)動力學(xué)和無模型微調(diào)的模型化深度強(qiáng)化學(xué)習(xí)方法

    目前,神經(jīng)網(wǎng)絡(luò)已在眾領(lǐng)域取得巨大成功[34],與此同時研究者也在探索利用神經(jīng)網(wǎng)絡(luò)解決模型化強(qiáng)化學(xué)習(xí)中復(fù)雜、高維任務(wù)的方法[19]。其中,Nagabandi等人提出基于神經(jīng)網(wǎng)絡(luò)動力學(xué)和無模型微調(diào)的模型化深度強(qiáng)化學(xué)習(xí)方法(neural network dynamics for model-based deep reinforcement learning with modelfree fine-tuning,MBMF)[24],該算法只需收集機(jī)器人與環(huán)境幾分鐘的交互數(shù)據(jù)就可找到最優(yōu)策略,完成任務(wù)。

    MBMF 方法將神經(jīng)網(wǎng)絡(luò)和模型預(yù)測控制方法(model predictive control,MPC)[35]結(jié)合,利用神經(jīng)網(wǎng)絡(luò)捕捉學(xué)習(xí)有效步態(tài)的動力學(xué)模型,所得模型可用于不同的軌跡跟蹤任務(wù),還可以用所得模型生成樣本初始化智能體,使用無模型強(qiáng)化學(xué)習(xí)對初始步態(tài)微調(diào),獲得高任務(wù)獎勵。

    算法4MBMF 方法

    輸入:隨機(jī)決策行為數(shù)據(jù)。

    輸出:算法得到的策略以及神經(jīng)網(wǎng)絡(luò)動力學(xué)模型。

    步驟1建立神經(jīng)網(wǎng)絡(luò)動力學(xué)模型f,擬合狀態(tài)變化與當(dāng)前狀態(tài)和動作的非線性關(guān)系;

    步驟2使用梯度下降方法更新模型f;

    步驟3定義模型化的控制器(controller)預(yù)測動作序列A(H);

    步驟4選擇對應(yīng)于最高累積獎賞的序列A*,執(zhí)行動作序列中的第一個動作;

    步驟5重復(fù)步驟3、步驟4 直到序列最終狀態(tài),并更新神經(jīng)網(wǎng)絡(luò)動力學(xué)模型(步驟2)。

    算法4 表示的是僅使用模型化強(qiáng)化學(xué)習(xí)方法(model-based,MB)的學(xué)習(xí)過程。具體過程如下:

    首先,建立神經(jīng)網(wǎng)絡(luò)動力學(xué)模型(狀態(tài)轉(zhuǎn)移模型):

    其中,st、at分別為t時刻智能體的狀態(tài)和采取的動作,st+1表示t+1 時刻智能體狀態(tài),fθ(st,at)表示參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)動力學(xué)模型,用于捕捉在執(zhí)行某動作a的相鄰狀態(tài)間的變化。

    其次,更新模型參數(shù)θ,損失函數(shù)為:

    然后,使用任務(wù)獎賞函數(shù)和習(xí)得的動力學(xué)模型建立的模型化的控制器預(yù)測動作序列A(H):其中,每個時間步t均隨機(jī)生成K個動作候選序列,H為序列長度。

    盡管強(qiáng)化學(xué)習(xí)中模型化方法比無模型方法學(xué)習(xí)特定任務(wù)的策略時更具樣本效率和靈活性,但若存在模型偏差,其性能通常比無模型強(qiáng)化學(xué)習(xí)方法差。因此文章結(jié)合兩者優(yōu)勢,又提出了一種簡單且高效的MBMF 方法[24]。具體地,首先使用上述模型化方法中的控制器生成樣本序列作為“專家知識”初始化無模型強(qiáng)化學(xué)習(xí)方法的策略參數(shù),然后使用無模型方法——信任區(qū)域策略優(yōu)化(trust region policy optimization,TRPO)[36]方法微調(diào)策略參數(shù)進(jìn)行策略搜索。

    3.3 嵌入控制方法

    嵌入控制方法(embed to control:a locally linear latent dynamics model for control from raw images,E2C)是一種面向高維圖像流的隨機(jī)最優(yōu)控制(stochastic optimal control,SOC)系統(tǒng)[23]。為解決原始圖像作為輸入帶來的維度過高問題,E2C 方法將高維非線性系統(tǒng)的最優(yōu)控制問題轉(zhuǎn)化為低維隱空間中的局部線性問題,使得最優(yōu)控制能夠快速、簡便地進(jìn)行。

    如圖4 所示[23],E2C 模型將高維、非線性的原始像素圖像st作為系統(tǒng)輸入,經(jīng)變分自編碼器(variational autoencoder,VAE)[37]的編碼器(encoder)部分,將系統(tǒng)輸入映射到低維隱空間中,隨后在隱空間中將動態(tài)環(huán)境約束為局部線性模型,并計算KL 散度(Kullback-Leibler divergence)[38]進(jìn)行模型更新。在模型穩(wěn)定收斂后,E2C 模型可直接根據(jù)當(dāng)前狀態(tài)st和動作at,預(yù)測下一狀態(tài)st+1。

    Fig.4 Information flow in E2C model圖4 E2C 方法信息流

    算法5E2C 方法

    輸入:隨機(jī)決策行為數(shù)據(jù)。

    輸出:算法得到的策略以及相應(yīng)狀態(tài)轉(zhuǎn)移模型。

    步驟1利用VAE 將收集到的當(dāng)前狀態(tài)st映射到隱空間,得到隱狀態(tài)zt;

    步驟2在當(dāng)前隱空間根據(jù)隱狀態(tài)zt建立線性狀態(tài)轉(zhuǎn)移模型htrans;

    步驟3對所得狀態(tài)轉(zhuǎn)移模型htrans更新訓(xùn)練,直至收斂;

    步驟4將SOC 和狀態(tài)轉(zhuǎn)移模型htrans聯(lián)合使用,獲得最優(yōu)控制。

    算法5 為E2C 模型化強(qiáng)化學(xué)習(xí)方法具體流程。由于原始圖像是高維的,很難直接處理,因此文章提出首先通過變分自編碼器將高維圖像輸入數(shù)據(jù)st映射為低維隱空間中的zt:

    其中,zt是st的低維隱表征,m是高維圖像st到低維向量zt的映射函數(shù),ω為系統(tǒng)噪聲。

    為得到局部線性模型的概率生成模型,此方法直接在隱表征z中令潛在表征線性化:

    其中:

    其中,htrans(zt)表示參數(shù)是ψ輸入是zt的三層神經(jīng)網(wǎng)絡(luò),vec表示向量化,WA、WB、Wo表示權(quán)重矩陣,bA、bB、bo表示偏差矩陣。

    隨后訓(xùn)練更新模型:利用得到的隱空間狀態(tài)轉(zhuǎn)移模型htrans和當(dāng)前隱狀態(tài)zt以及當(dāng)前動作at預(yù)測隱空間中的下一狀態(tài);并使用上述VAE 對下一狀態(tài)st+1編碼得到zt+1,求與zt+1′間的KL 散度,微調(diào)線性狀態(tài)轉(zhuǎn)移模型htrans。

    在模型穩(wěn)定收斂后,將SOC 和狀態(tài)轉(zhuǎn)移模型htrans聯(lián)合使用,獲得最優(yōu)控制。

    E2C 方法不僅支持圖像序列的長期預(yù)測,而且在解決復(fù)雜控制的相關(guān)任務(wù)有很大優(yōu)勢。與E2C 方法思想相比,Assael 所提出的基于深度動態(tài)卷積網(wǎng)絡(luò)的策略學(xué)習(xí)方法[39]同樣使用VAE 從圖像中提取控制的隱空間表示,并在此基礎(chǔ)上學(xué)習(xí)非線性模型。不同的是后者使用PCA(principal components analysis)進(jìn)行預(yù)處理[40],然而預(yù)處理后的數(shù)據(jù)在隱空間中不能保證長期預(yù)測不發(fā)散,也不能保證數(shù)據(jù)的線性,最終實(shí)驗(yàn)結(jié)果并不理想。

    然而當(dāng)系統(tǒng)動力學(xué)中存在噪聲時,用于嵌入的編碼器通常具有較大的近似誤差,魯棒的局部線性可控嵌入方法(robust locally-linear controllable embedding,RCE)[41]提出嵌入后驗(yàn)的變分近似方法,最終使得RCE 方法性能優(yōu)于E2C 模型。

    3.4 世界模型

    世界模型(world models)是為通用強(qiáng)化學(xué)習(xí)環(huán)境所構(gòu)建的神經(jīng)網(wǎng)絡(luò)生成模型,它可以在無監(jiān)督的情況下快速學(xué)習(xí)到低維隱空間下的環(huán)境狀態(tài)表示,甚至能夠?qū)⒅悄荏w在學(xué)得的世界模型中訓(xùn)練,并將其策略遷移至真實(shí)環(huán)境[25]。世界模型框架如圖5所示[25],模型包含三個主要部分:將原始觀測圖像映射到低維隱空間中的視覺組件(V);用于在低維潛在空間對未來狀態(tài)的預(yù)測的記憶組件部分(M);基于視覺組件和記憶組件的輸出決定智能體所采取動作的控制組件(C)。

    Fig.5 Flow diagram of world models圖5 世界模型數(shù)據(jù)流

    t時刻,智能體首先與真實(shí)環(huán)境交互觀測得到高維原始圖像,在V 部分利用VAE 得到原始圖像的潛在編碼zt,因此此部分的主要任務(wù)是狀態(tài)的抽象、低維表示。隨后在M 部分根據(jù)當(dāng)前狀態(tài)的潛在編碼zt和采取動作at,使用基于混合密度網(wǎng)絡(luò)的遞歸型神經(jīng)網(wǎng)絡(luò)(mixture density network combined with a recurrent neural networks,MDN-RNN)[42]預(yù)測下一狀態(tài)的潛在編碼zt+1,其中RNN(recurrent neural networks)[43]學(xué)習(xí)潛在空間的狀態(tài)轉(zhuǎn)移概率密度函數(shù)p(zt+1|at,zt,ht),ht表示RNN 的隱藏狀態(tài)。在智能體與環(huán)境的交互過程中,C 部分實(shí)現(xiàn)當(dāng)前狀態(tài)的潛在編碼zt和系統(tǒng)自身的隱藏狀態(tài)ht到動作的映射:

    其中,Wc和bc分別表示權(quán)重矩陣和偏差向量。

    算法6 的訓(xùn)練過程中,將大規(guī)模神經(jīng)網(wǎng)絡(luò)置于V部分和M 部分,利用無監(jiān)督的學(xué)習(xí)方式分開訓(xùn)練學(xué)習(xí)智能體的環(huán)境模型;將C 模型設(shè)計為一個小型神經(jīng)網(wǎng)絡(luò),使用協(xié)方差矩陣自適應(yīng)進(jìn)化策略(covariance matrix adaptation evolution strategy,CMA-ES)最大化累積獎勵,對控制器進(jìn)行優(yōu)化[44]。

    算法6世界模型方法

    輸入:隨機(jī)決策行為數(shù)據(jù)。

    輸出:算法得到的策略以及狀態(tài)轉(zhuǎn)移模型。

    步驟1隨機(jī)收集數(shù)據(jù);

    步驟2訓(xùn)練VAE(V)部分,將原始輸入映射到維度較小的隱空間中;

    步驟3訓(xùn)練MDN-RNN(M)部分,得到轉(zhuǎn)移模型P(zt+1|at,zt,ht);

    步驟4訓(xùn)練C選取下一步的行動,at=Wc[zt,ht]+bc;

    步驟5使用協(xié)方差自適應(yīng)調(diào)整的進(jìn)化策略(CMAES)最大化獎賞,更新參數(shù)Wc、bc。

    世界模型摒棄了傳統(tǒng)深度強(qiáng)化學(xué)習(xí)的端到端的學(xué)習(xí)方式,采用對各個組件分開訓(xùn)練的模式進(jìn)行學(xué)習(xí),從而極大地加快學(xué)習(xí)速率。它針對不同任務(wù)能夠取得較好結(jié)果,且易于復(fù)現(xiàn),方法整體性能穩(wěn)定。但使用VAE 作為V 模型壓縮空間維度并將其訓(xùn)練為獨(dú)立模型有其局限性,這是由于編碼器可能編碼與任務(wù)無關(guān)的部分觀測結(jié)果。另外,受限于硬件存儲能力,難以存儲所有數(shù)據(jù)信息,會產(chǎn)生諸如災(zāi)難性遺忘之類的問題。

    4 總結(jié)及展望

    深度強(qiáng)化學(xué)習(xí)通過端到端的學(xué)習(xí)方式實(shí)現(xiàn)從輸入到輸出的直接控制,使強(qiáng)化學(xué)習(xí)能夠擴(kuò)展到以前難以處理的具有高維狀態(tài)和動作空間的決策問題。它為整個社會實(shí)現(xiàn)真正智能化提供了有力的技術(shù)支撐,在機(jī)器人控制、游戲、自然語言處理、自動駕駛等領(lǐng)域取得了令人矚目的成就,成為當(dāng)前備受關(guān)注的研究領(lǐng)域。深度強(qiáng)化學(xué)習(xí)的成功依賴于大量的數(shù)據(jù)樣本、計算資源及良好的學(xué)習(xí)算法,而獲得大量的學(xué)習(xí)樣本恰恰是DRL 在實(shí)際應(yīng)用中的瓶頸問題。鑒于模型化強(qiáng)化學(xué)習(xí)在樣本利用率方面的優(yōu)勢,本文對其展開了詳細(xì)的綜述、分析及展望。

    對模型化強(qiáng)化學(xué)習(xí)而言,其核心的問題是如何提高環(huán)境模型預(yù)測的準(zhǔn)確率。近年,生成模型,如變分自編碼器[37]及對抗生成網(wǎng)絡(luò)[45],在數(shù)據(jù)生成方面取得了令人矚目的成果,如何將成熟的概率生成模型更好地應(yīng)用到模型化強(qiáng)化學(xué)習(xí)領(lǐng)域,進(jìn)行精準(zhǔn)的環(huán)境狀態(tài)轉(zhuǎn)移的預(yù)測是重要的研究方向。深度強(qiáng)化學(xué)習(xí)往往面對的是高維度、復(fù)雜的狀態(tài)空間,針對此應(yīng)用場景,樣本利用率及維度災(zāi)難問題是該領(lǐng)域在實(shí)際中的瓶頸問題[15]。因此,如何在高維狀態(tài)空間的低維表示空間預(yù)測狀態(tài)轉(zhuǎn)移模型是模型化強(qiáng)化學(xué)習(xí)能在實(shí)際中得以廣泛應(yīng)用的重要探索方向[25]。此外,現(xiàn)有深度強(qiáng)化學(xué)習(xí)方法面對給定的任務(wù)可以在訓(xùn)練環(huán)境中表現(xiàn)極好,但是往往不能泛化至環(huán)境中看似微小的變化,因此如何學(xué)習(xí)能夠自適應(yīng)的環(huán)境模型是模型化強(qiáng)化學(xué)習(xí)在實(shí)現(xiàn)通用人工智能過程中的重要課題。影響狀態(tài)轉(zhuǎn)移的因素包括智能體對于自身行動所引發(fā)的環(huán)境變化的內(nèi)部隱狀態(tài)的變化及外部環(huán)境的變化,智能體在學(xué)習(xí)環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)時,應(yīng)該同時學(xué)習(xí)自身系統(tǒng)的內(nèi)部隱狀態(tài)變化[25],從而在面對新環(huán)境時,能更快、更有效地將所學(xué)的環(huán)境模型適應(yīng)到新的環(huán)境中。

    模型化強(qiáng)化學(xué)習(xí)算法和無模型強(qiáng)化學(xué)習(xí)算法各有優(yōu)缺點(diǎn),將兩種算法聯(lián)合使用可以綜合兩者的優(yōu)點(diǎn),這將成為未來深度強(qiáng)化學(xué)習(xí)發(fā)展的熱點(diǎn),從而讓深度強(qiáng)化學(xué)習(xí)算法更實(shí)用。未來工作的一個重要方向是將模型化方法和無模型方法更緊密、更高效地集成在一起,以便進(jìn)一步提高樣本效率,學(xué)習(xí)最優(yōu)策略。另外,模型化強(qiáng)化學(xué)習(xí)與控制理論聯(lián)系緊密,未來二者可互相借鑒成果,互相促進(jìn)共同發(fā)展。

    猜你喜歡
    神經(jīng)網(wǎng)絡(luò)樣本狀態(tài)
    用樣本估計總體復(fù)習(xí)點(diǎn)撥
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    狀態(tài)聯(lián)想
    推動醫(yī)改的“直銷樣本”
    生命的另一種狀態(tài)
    隨機(jī)微分方程的樣本Lyapunov二次型估計
    熱圖
    家庭百事通(2016年3期)2016-03-14 08:07:17
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    堅持是成功前的狀態(tài)
    山東青年(2016年3期)2016-02-28 14:25:52
    村企共贏的樣本
    欧美xxⅹ黑人| 在线看a的网站| 男的添女的下面高潮视频| 国内精品美女久久久久久| 国产成人91sexporn| 校园人妻丝袜中文字幕| 啦啦啦啦在线视频资源| 99re6热这里在线精品视频| 午夜福利网站1000一区二区三区| 有码 亚洲区| 国模一区二区三区四区视频| videos熟女内射| 看十八女毛片水多多多| 亚洲成人中文字幕在线播放| 校园人妻丝袜中文字幕| 国产爽快片一区二区三区| 国产探花极品一区二区| 午夜福利在线在线| 一边亲一边摸免费视频| 性插视频无遮挡在线免费观看| 91精品国产九色| 亚洲人成网站在线观看播放| 国产黄频视频在线观看| 国产黄片视频在线免费观看| 精品99又大又爽又粗少妇毛片| 日韩国内少妇激情av| 日日啪夜夜撸| 综合色丁香网| 成人亚洲精品av一区二区| 一个人看视频在线观看www免费| 亚洲av国产av综合av卡| 久久影院123| 亚洲人与动物交配视频| 国产毛片在线视频| 日韩中字成人| 好男人视频免费观看在线| 成人亚洲精品av一区二区| 亚洲国产日韩一区二区| 亚洲综合色惰| 中文乱码字字幕精品一区二区三区| 国产 一区 欧美 日韩| 国产毛片a区久久久久| 深夜a级毛片| 亚洲av电影在线观看一区二区三区 | 久久久久久久精品精品| 久久久久久久国产电影| 欧美日韩综合久久久久久| 亚洲欧美成人综合另类久久久| 一区二区三区四区激情视频| 日本三级黄在线观看| 国产精品一区二区三区四区免费观看| 美女国产视频在线观看| 禁无遮挡网站| 久久久精品免费免费高清| 日韩欧美 国产精品| xxx大片免费视频| 亚洲最大成人手机在线| 美女被艹到高潮喷水动态| 国产高潮美女av| 大片电影免费在线观看免费| 亚洲精品第二区| a级一级毛片免费在线观看| 永久网站在线| av一本久久久久| 亚洲欧美日韩另类电影网站 | 欧美激情国产日韩精品一区| 亚洲av成人精品一二三区| 亚洲国产精品成人综合色| 中文字幕亚洲精品专区| 国产精品一区二区在线观看99| 99久久精品热视频| 日韩亚洲欧美综合| 另类亚洲欧美激情| 自拍偷自拍亚洲精品老妇| 欧美一区二区亚洲| 内地一区二区视频在线| 亚洲经典国产精华液单| 少妇人妻久久综合中文| 亚洲欧美清纯卡通| 夜夜爽夜夜爽视频| 亚洲av中文av极速乱| 久久ye,这里只有精品| 国产乱来视频区| 日日摸夜夜添夜夜添av毛片| 少妇丰满av| 一二三四中文在线观看免费高清| tube8黄色片| 日本-黄色视频高清免费观看| 大片电影免费在线观看免费| 啦啦啦啦在线视频资源| 国产高清不卡午夜福利| 各种免费的搞黄视频| 老司机影院成人| 秋霞伦理黄片| 黄片无遮挡物在线观看| 亚洲精品影视一区二区三区av| 国产乱人偷精品视频| 精品国产露脸久久av麻豆| 免费不卡的大黄色大毛片视频在线观看| 春色校园在线视频观看| 日韩视频在线欧美| 中文欧美无线码| 日本爱情动作片www.在线观看| 熟妇人妻不卡中文字幕| 日本黄大片高清| 欧美国产精品一级二级三级 | 一本一本综合久久| 免费av观看视频| 日本与韩国留学比较| 国精品久久久久久国模美| 高清毛片免费看| 国产av码专区亚洲av| 亚洲av福利一区| 青青草视频在线视频观看| 免费看日本二区| 成人亚洲精品一区在线观看 | 久久影院123| 香蕉精品网在线| 一个人看的www免费观看视频| 最近最新中文字幕免费大全7| 毛片女人毛片| 国产色爽女视频免费观看| 免费大片黄手机在线观看| 亚洲电影在线观看av| 日本黄大片高清| 精品人妻偷拍中文字幕| 99久久中文字幕三级久久日本| 成人国产av品久久久| 欧美丝袜亚洲另类| 精品人妻一区二区三区麻豆| 欧美高清成人免费视频www| 久久久久久久久久久免费av| 国产精品久久久久久久电影| 2022亚洲国产成人精品| 亚洲国产精品专区欧美| 国产精品女同一区二区软件| 亚洲欧美中文字幕日韩二区| 别揉我奶头 嗯啊视频| 天堂网av新在线| 成人午夜精彩视频在线观看| 天天一区二区日本电影三级| 国产白丝娇喘喷水9色精品| 免费观看在线日韩| 神马国产精品三级电影在线观看| 纵有疾风起免费观看全集完整版| 国产一区二区三区av在线| 最近最新中文字幕免费大全7| 观看美女的网站| 久久国内精品自在自线图片| 晚上一个人看的免费电影| 80岁老熟妇乱子伦牲交| 色5月婷婷丁香| 大陆偷拍与自拍| 人妻夜夜爽99麻豆av| 免费看a级黄色片| 日日撸夜夜添| av在线播放精品| 最近的中文字幕免费完整| 国产高清三级在线| 搞女人的毛片| 国产午夜福利久久久久久| 亚洲欧美精品专区久久| 大片电影免费在线观看免费| 好男人视频免费观看在线| 国产一级毛片在线| 小蜜桃在线观看免费完整版高清| 亚洲电影在线观看av| 久久久成人免费电影| 一二三四中文在线观看免费高清| 精品人妻一区二区三区麻豆| 国产黄色免费在线视频| 能在线免费看毛片的网站| 成人一区二区视频在线观看| 日韩伦理黄色片| 大香蕉97超碰在线| 少妇高潮的动态图| 国产男人的电影天堂91| 国产爽快片一区二区三区| 午夜福利在线观看免费完整高清在| 一级毛片电影观看| 久久精品国产a三级三级三级| 成人毛片a级毛片在线播放| 久久综合国产亚洲精品| 国产大屁股一区二区在线视频| 国内少妇人妻偷人精品xxx网站| 视频中文字幕在线观看| 成人综合一区亚洲| 国内揄拍国产精品人妻在线| 秋霞在线观看毛片| 国产免费福利视频在线观看| 男男h啪啪无遮挡| 精品视频人人做人人爽| 亚洲成人中文字幕在线播放| 2021少妇久久久久久久久久久| 色5月婷婷丁香| 七月丁香在线播放| 婷婷色av中文字幕| 美女脱内裤让男人舔精品视频| 久久精品综合一区二区三区| 精品人妻一区二区三区麻豆| av播播在线观看一区| 亚洲精品国产av成人精品| 国产精品人妻久久久久久| 免费播放大片免费观看视频在线观看| 水蜜桃什么品种好| 一个人看的www免费观看视频| 一级a做视频免费观看| 极品教师在线视频| 边亲边吃奶的免费视频| 国语对白做爰xxxⅹ性视频网站| 久久久欧美国产精品| 久久久成人免费电影| 午夜激情福利司机影院| 你懂的网址亚洲精品在线观看| 欧美性猛交╳xxx乱大交人| 极品少妇高潮喷水抽搐| 精品国产露脸久久av麻豆| 久久精品国产自在天天线| 一级a做视频免费观看| 亚洲aⅴ乱码一区二区在线播放| 熟女人妻精品中文字幕| 久久久a久久爽久久v久久| 波野结衣二区三区在线| 日韩伦理黄色片| 少妇猛男粗大的猛烈进出视频 | 91aial.com中文字幕在线观看| 综合色av麻豆| 国产黄色视频一区二区在线观看| 日韩一区二区视频免费看| 纵有疾风起免费观看全集完整版| xxx大片免费视频| 男人爽女人下面视频在线观看| 天堂网av新在线| 国产精品一区二区性色av| 亚洲内射少妇av| 最近2019中文字幕mv第一页| 精品久久久久久久人妻蜜臀av| 三级国产精品欧美在线观看| 大片免费播放器 马上看| 国产精品精品国产色婷婷| 一级av片app| 午夜福利网站1000一区二区三区| 亚洲va在线va天堂va国产| 国产毛片在线视频| 国产av不卡久久| 蜜桃久久精品国产亚洲av| 亚洲精品亚洲一区二区| 亚洲国产色片| 亚洲国产高清在线一区二区三| 久久精品久久精品一区二区三区| 免费看不卡的av| 成人国产av品久久久| 少妇被粗大猛烈的视频| 日本黄色片子视频| 亚洲电影在线观看av| 一级片'在线观看视频| 国产免费一区二区三区四区乱码| 欧美丝袜亚洲另类| 国产精品99久久久久久久久| 国产精品福利在线免费观看| 欧美另类一区| 如何舔出高潮| 全区人妻精品视频| 久久精品综合一区二区三区| 女人被狂操c到高潮| 在线a可以看的网站| 国产伦精品一区二区三区视频9| 一二三四中文在线观看免费高清| 丝瓜视频免费看黄片| 国产成人freesex在线| 亚洲美女视频黄频| 能在线免费看毛片的网站| av在线老鸭窝| 欧美精品一区二区大全| 一级毛片电影观看| 久久久久性生活片| 日韩成人伦理影院| 欧美日韩视频精品一区| 丝袜美腿在线中文| 国产大屁股一区二区在线视频| 成年女人看的毛片在线观看| 18禁裸乳无遮挡动漫免费视频 | 国产一区二区三区av在线| 国产片特级美女逼逼视频| www.av在线官网国产| 色哟哟·www| 精品人妻一区二区三区麻豆| 国产精品av视频在线免费观看| 国产精品国产三级国产专区5o| 大话2 男鬼变身卡| 国产亚洲精品久久久com| 网址你懂的国产日韩在线| 欧美性猛交╳xxx乱大交人| 免费人成在线观看视频色| 色吧在线观看| 国产日韩欧美亚洲二区| 亚洲欧美日韩无卡精品| 春色校园在线视频观看| 亚洲国产精品999| 久久99热这里只有精品18| 18禁在线无遮挡免费观看视频| 免费人成在线观看视频色| 亚洲自拍偷在线| av国产精品久久久久影院| 国产爽快片一区二区三区| 日本免费在线观看一区| 有码 亚洲区| 国产亚洲一区二区精品| 亚洲在久久综合| 少妇人妻久久综合中文| 中文乱码字字幕精品一区二区三区| 免费看不卡的av| 亚洲精品成人久久久久久| 久久6这里有精品| 观看免费一级毛片| 国产爱豆传媒在线观看| 日本猛色少妇xxxxx猛交久久| 久久精品久久久久久久性| 一个人看的www免费观看视频| 久久久国产一区二区| 男人狂女人下面高潮的视频| 色网站视频免费| 超碰av人人做人人爽久久| 国产午夜精品一二区理论片| 精品久久久久久电影网| 国产片特级美女逼逼视频| 久久这里有精品视频免费| 国产高潮美女av| xxx大片免费视频| 麻豆乱淫一区二区| 男人添女人高潮全过程视频| 国产精品国产三级专区第一集| 99九九线精品视频在线观看视频| 在现免费观看毛片| 精品一区二区三卡| 汤姆久久久久久久影院中文字幕| 国产高清有码在线观看视频| 国产乱人偷精品视频| 精品人妻偷拍中文字幕| 超碰av人人做人人爽久久| 免费黄网站久久成人精品| 日本黄大片高清| 美女xxoo啪啪120秒动态图| 亚洲国产成人一精品久久久| 在线天堂最新版资源| 夫妻午夜视频| 成人亚洲精品av一区二区| 三级国产精品欧美在线观看| 久久99热这里只频精品6学生| 亚洲av成人精品一区久久| 亚洲自拍偷在线| 最近手机中文字幕大全| 久久精品国产亚洲av涩爱| 在线观看三级黄色| 18禁裸乳无遮挡免费网站照片| 国产精品熟女久久久久浪| 最近的中文字幕免费完整| 你懂的网址亚洲精品在线观看| 在线观看一区二区三区| 69人妻影院| 成人亚洲精品av一区二区| 全区人妻精品视频| 亚洲色图综合在线观看| 国产精品人妻久久久久久| 男人舔奶头视频| 亚洲天堂av无毛| av国产久精品久网站免费入址| 亚洲在久久综合| 3wmmmm亚洲av在线观看| 国语对白做爰xxxⅹ性视频网站| 中国美白少妇内射xxxbb| 精品久久久久久电影网| 91精品伊人久久大香线蕉| 日日摸夜夜添夜夜添av毛片| 啦啦啦在线观看免费高清www| 国产黄色视频一区二区在线观看| 不卡视频在线观看欧美| 丰满乱子伦码专区| 亚洲精品乱码久久久v下载方式| 自拍偷自拍亚洲精品老妇| 热99国产精品久久久久久7| 国产高清不卡午夜福利| 国产综合精华液| 午夜免费男女啪啪视频观看| 午夜精品一区二区三区免费看| 人妻夜夜爽99麻豆av| 嫩草影院入口| 日日摸夜夜添夜夜添av毛片| 国产成人免费观看mmmm| 亚洲av不卡在线观看| 亚洲精品亚洲一区二区| 成人漫画全彩无遮挡| 99久久精品国产国产毛片| 午夜视频国产福利| 美女国产视频在线观看| 国产精品嫩草影院av在线观看| 久久这里有精品视频免费| 久久99热这里只有精品18| 成年人午夜在线观看视频| 亚洲av二区三区四区| 97超视频在线观看视频| 人人妻人人看人人澡| 国产真实伦视频高清在线观看| 日韩欧美精品免费久久| 高清视频免费观看一区二区| 在线观看三级黄色| 人妻系列 视频| 免费观看在线日韩| 国精品久久久久久国模美| 亚洲人成网站在线观看播放| 成人黄色视频免费在线看| 一区二区三区四区激情视频| 久久久久久久国产电影| 老司机影院毛片| 一级a做视频免费观看| 一级av片app| 日日啪夜夜撸| 美女内射精品一级片tv| 国产探花极品一区二区| 最近最新中文字幕免费大全7| 久热久热在线精品观看| 婷婷色麻豆天堂久久| 2018国产大陆天天弄谢| 99热这里只有是精品在线观看| 波野结衣二区三区在线| 亚洲综合色惰| 中文字幕制服av| 日本-黄色视频高清免费观看| 99久久中文字幕三级久久日本| 成人鲁丝片一二三区免费| 永久网站在线| 色视频在线一区二区三区| 亚洲精品久久午夜乱码| 久久久欧美国产精品| 日韩大片免费观看网站| 晚上一个人看的免费电影| 亚洲精品,欧美精品| 亚洲成人久久爱视频| 国产有黄有色有爽视频| 观看美女的网站| 99re6热这里在线精品视频| 嫩草影院新地址| 日韩成人伦理影院| 亚洲精品国产色婷婷电影| 中文字幕久久专区| 狂野欧美激情性bbbbbb| 久久久久久久精品精品| 免费看不卡的av| 久久久久久国产a免费观看| 亚洲人成网站高清观看| 久久久成人免费电影| 如何舔出高潮| 男的添女的下面高潮视频| 日本wwww免费看| 欧美成人a在线观看| 在线精品无人区一区二区三 | 高清毛片免费看| 久久99蜜桃精品久久| 久久人人爽人人片av| 亚洲一区二区三区欧美精品 | 91久久精品电影网| 男插女下体视频免费在线播放| 国产高清不卡午夜福利| 国产av国产精品国产| 成人高潮视频无遮挡免费网站| 午夜免费鲁丝| 精品少妇黑人巨大在线播放| 久久人人爽av亚洲精品天堂 | 午夜免费男女啪啪视频观看| 日韩三级伦理在线观看| 亚洲国产精品国产精品| 亚洲国产av新网站| 99热这里只有精品一区| 日本色播在线视频| 国产一级毛片在线| 国产 一区精品| 国产亚洲一区二区精品| 神马国产精品三级电影在线观看| 亚洲欧美一区二区三区国产| 我的老师免费观看完整版| 亚洲最大成人手机在线| 欧美日韩一区二区视频在线观看视频在线 | 天美传媒精品一区二区| 国产精品不卡视频一区二区| 狂野欧美激情性xxxx在线观看| 国产在线男女| 国产一区二区亚洲精品在线观看| 免费人成在线观看视频色| 啦啦啦在线观看免费高清www| 黄色欧美视频在线观看| 国产一区亚洲一区在线观看| av在线老鸭窝| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 白带黄色成豆腐渣| 午夜福利视频精品| 伦理电影大哥的女人| 亚洲精品影视一区二区三区av| 女人久久www免费人成看片| 色播亚洲综合网| 国产精品.久久久| 国产成人免费无遮挡视频| 99久久九九国产精品国产免费| 永久免费av网站大全| 久久韩国三级中文字幕| h日本视频在线播放| 欧美zozozo另类| 欧美+日韩+精品| 中国国产av一级| 日韩成人伦理影院| 超碰av人人做人人爽久久| 99re6热这里在线精品视频| 日本爱情动作片www.在线观看| 免费大片黄手机在线观看| a级毛片免费高清观看在线播放| 亚洲丝袜综合中文字幕| 一级毛片电影观看| 国产色婷婷99| 国产黄a三级三级三级人| 亚洲欧美成人精品一区二区| 天美传媒精品一区二区| 久久久久久久久久久免费av| 天天躁日日操中文字幕| 十八禁网站网址无遮挡 | 欧美激情国产日韩精品一区| 日韩成人av中文字幕在线观看| 亚洲欧美日韩东京热| 啦啦啦中文免费视频观看日本| 日本熟妇午夜| 九九在线视频观看精品| 国产精品久久久久久av不卡| 波野结衣二区三区在线| 午夜老司机福利剧场| 精品熟女少妇av免费看| 亚洲最大成人手机在线| av在线蜜桃| 水蜜桃什么品种好| 国产乱人视频| 久久精品国产亚洲网站| 黄片无遮挡物在线观看| 国产久久久一区二区三区| 丰满乱子伦码专区| 成人亚洲欧美一区二区av| 麻豆乱淫一区二区| 丰满人妻一区二区三区视频av| 麻豆成人av视频| 国产亚洲av嫩草精品影院| 深夜a级毛片| 成人综合一区亚洲| 亚洲aⅴ乱码一区二区在线播放| 交换朋友夫妻互换小说| 高清毛片免费看| 国产亚洲最大av| 久久久久久久久久人人人人人人| 在线免费观看不下载黄p国产| 亚洲综合色惰| 亚洲,欧美,日韩| 日韩亚洲欧美综合| 26uuu在线亚洲综合色| 久久久精品免费免费高清| 美女内射精品一级片tv| 免费看a级黄色片| 99热这里只有是精品50| 久久精品久久精品一区二区三区| 91久久精品电影网| 日本三级黄在线观看| 搡老乐熟女国产| 国产有黄有色有爽视频| 国产一级毛片在线| 国产男女内射视频| 夫妻性生交免费视频一级片| 色视频www国产| 亚洲av福利一区| 色综合色国产| 少妇熟女欧美另类| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | av免费在线看不卡| 十八禁网站网址无遮挡 | 亚洲精品国产av成人精品| 亚洲欧美日韩无卡精品| 欧美潮喷喷水| 亚洲国产最新在线播放| 少妇人妻一区二区三区视频| 成年女人在线观看亚洲视频 | 国产爱豆传媒在线观看| 久久精品国产鲁丝片午夜精品| 美女xxoo啪啪120秒动态图| 国内精品美女久久久久久| 熟妇人妻不卡中文字幕| 亚洲av电影在线观看一区二区三区 | 精品少妇久久久久久888优播| 男的添女的下面高潮视频| 尤物成人国产欧美一区二区三区| 18禁在线播放成人免费| 国产成人精品久久久久久| 99热这里只有精品一区| 久久影院123| av在线蜜桃| 久久久久久久久久久丰满| 青青草视频在线视频观看| 成人毛片a级毛片在线播放| 97在线人人人人妻| 观看美女的网站| 国产乱人视频| 男女那种视频在线观看| 最近中文字幕高清免费大全6| 男女边摸边吃奶| 国产一区有黄有色的免费视频| 国产免费视频播放在线视频| 亚洲真实伦在线观看| 日韩电影二区| 一级毛片我不卡| 黄片wwwwww| 国产精品不卡视频一区二区| 成年人午夜在线观看视频| 国产成人91sexporn|