基于模型的機器人強化學(xué)習(xí)研究綜述

2022-02-17 05:58:54孫世光蘭旭光張翰博鄭南寧

模式識別與人工智能 2022年1期

孫世光蘭旭光張翰博鄭南寧

傳統(tǒng)的機器人控制大多基于定制化程序解決固定任務(wù)，只適合簡單的結(jié)構(gòu)化環(huán)境.而對于各種復(fù)雜環(huán)境下的復(fù)雜任務(wù)，機器人本身的最優(yōu)行為并不唯一，缺乏固定范式，因此無法對機器人策略進行預(yù)編程[1].近年來，學(xué)習(xí)算法的快速發(fā)展使解決此類問題成為可能.機器人學(xué)習(xí)(Robot Learning)是機器學(xué)習(xí)和機器人技術(shù)的交叉領(lǐng)域，目的是研究讓機器人通過與環(huán)境自主交互和學(xué)習(xí)，獲得新技能以適應(yīng)環(huán)境，使機器人能完成復(fù)雜任務(wù).機器人學(xué)習(xí)涉及計算機視覺、自然語言處理、機器人控制等多個領(lǐng)域的研究.

在強化學(xué)習(xí)(Reinforcement Learning, RL)[2]中，機器人可通過與世界環(huán)境交互，從環(huán)境中獲得反饋并優(yōu)化自己的行動策略.深度強化學(xué)習(xí)(Deep RL, DRL)結(jié)合深度學(xué)習(xí)，使用神經(jīng)網(wǎng)絡(luò)表征策略和狀態(tài)，對復(fù)雜的環(huán)境更魯棒，更適用于機器人學(xué)習(xí)中的復(fù)雜任務(wù).而基于模型的強化學(xué)習(xí)(Model-Based RL, MBRL)作為強化學(xué)習(xí)的一個主要分支，通常會基于交互信息學(xué)習(xí)一個環(huán)境動力學(xué)模型(Dynamics Model)，并基于該模型生成數(shù)據(jù)優(yōu)化行動策略，或利用模型進行規(guī)劃.無模型的強化學(xué)習(xí)(Model-Free RL, MFRL)不需要建模，簡單直觀，樣本效率較低，但是漸進性能較高，適用于游戲領(lǐng)域.而基于模型的強化學(xué)習(xí)需要學(xué)習(xí)模型，學(xué)到模型后會有較高的樣本效率，但缺陷是對于有些復(fù)雜任務(wù)，模型不容易學(xué)到.在機器人控制領(lǐng)域，模型都有確定的物理規(guī)律作為指導(dǎo)，動作空間相對較小，模型容易學(xué)到，因此基于模型的強化學(xué)習(xí)算法更適用.

目前在機器人控制領(lǐng)域，強化學(xué)習(xí)算法取得重要進展，OpenAI等[3]通過深度強化學(xué)習(xí)和虛擬到現(xiàn)實(Sim to Real)的方法，訓(xùn)練一只可玩魔方的機械手，靈活性甚至超過人類.相比無模型算法，基于模型的強化學(xué)習(xí)算法在機器人上應(yīng)用更廣泛.Levine等[4]基于引導(dǎo)策略搜索(Guided Policy Search)，可讓機器人直接從攝像機原始像素中學(xué)習(xí)靈巧操作，實現(xiàn)端到端的機器人操作控制.Fazeli等[5]讓機器人學(xué)習(xí)融合視覺和觸覺的多模態(tài)的推理模型，結(jié)合規(guī)劃使機器人學(xué)會玩疊疊樂(Jenga).Fisac等[6]利用系統(tǒng)動力學(xué)模型的近似知識結(jié)合貝葉斯機制，構(gòu)建機器人控制的通用安全框架，有效提升機器人操作中的安全性.基于模型的機器人學(xué)習(xí)算法可從樣本中學(xué)習(xí)一個環(huán)境模型，基于模型學(xué)習(xí)操作技能，更適合高維圖像輸入，更接近人類的學(xué)習(xí)方式，有助于構(gòu)建人類期望中的機器人.

本文首先從機器人學(xué)習(xí)問題的建模入手，介紹馬爾科夫決策過程的相關(guān)概念，并將機器人學(xué)習(xí)問題形式化.詳細介紹機器人學(xué)習(xí)中基于模型的強化學(xué)習(xí)方法，包括主流的模型學(xué)習(xí)及模型利用的方法.主流的模型學(xué)習(xí)方法具體介紹前向動力學(xué)模型、逆向動力學(xué)模型和隱式模型.模型利用的方法具體介紹基于模型的規(guī)劃、基于模型的策略學(xué)習(xí)和隱式規(guī)劃，并對其中存在的問題進行探討.最后，結(jié)合現(xiàn)實中機器人學(xué)習(xí)任務(wù)面臨的問題，介紹基于模型的強化學(xué)習(xí)在其中的應(yīng)用，并展望基于模型的強化學(xué)習(xí)未來的研究方向.

1 機器人學(xué)習(xí)問題的形式化

將具有相似結(jié)構(gòu)的任務(wù)建模為一個MDP的集合(MDPs)，稱為一個任務(wù)族.使用P(M)表示任務(wù)的分布，每個MDP都是一個特定的任務(wù).任務(wù)族中所有任務(wù)的動作空間都是相同的，由機器人決定.但是任務(wù)之間的狀態(tài)空間可能有所不同.第i個任務(wù)的狀態(tài)空間可表示為機器人自身的狀態(tài)空間和第i個任務(wù)環(huán)境的狀態(tài)空間的笛卡爾積：

Ri=C+Gi，

其中,C表示任務(wù)族中公共環(huán)境背景的損失函數(shù)，Gi表示第i個任務(wù)的獎勵函數(shù).任務(wù)族中的多數(shù)任務(wù)環(huán)境可視為物體集合，因此也可由描述任務(wù)相關(guān)物體的變量集合描述.可將環(huán)境模型進一步分解為物體狀態(tài)的集合：

2 基礎(chǔ)理論

2.1 強化學(xué)習(xí)概念

強化學(xué)習(xí)一般通過馬爾科夫決策過程建模，目標是求解特定任務(wù)的最優(yōu)策略.機器人學(xué)習(xí)中的長時決策問題也可建模成一個MDP，因此強化學(xué)習(xí)適合作為機器人學(xué)習(xí)的算法.無模型強化學(xué)習(xí)過程如圖 1所示.強化學(xué)習(xí)的主體稱為智能體(Agent).智能體首先對環(huán)境進行觀測，得知自身目前所處的狀態(tài)s，根據(jù)當前狀態(tài)進行決策，執(zhí)行某個動作a，環(huán)境接收到智能體的動作后會轉(zhuǎn)移到一個新的狀態(tài)s′，同時反饋給智能體一個獎勵r=R(s,a,s′)，智能體再次對環(huán)境進行觀測執(zhí)行動作，直到到達終止狀態(tài).智能體和環(huán)境進行一次完整的交互，這個過程稱為一幕(Episode).記錄交互過程中的狀態(tài)動作，以時間序列的形式保存，稱為軌跡(Trajectory)，表示為

τ={s0,a0,……,st,at,st+1,at+1,…}.

一次交互過程結(jié)束時的累積獎勵記為

圖1 無模型強化學(xué)習(xí)Fig.1 Model-free reinforcement learning

累積獎勵中折扣因子γ的存在降低未來回報對當前的影響.強化學(xué)習(xí)的最終目標是最大化累積獎勵.強化學(xué)習(xí)過程中智能體通過策略和環(huán)境交互，策略是狀態(tài)到動作的映射，可分為隨機策略和確定性策略.隨機策略會輸出一個動作的分布

a=π(·|s)，

而確定性策略會輸出一個確定性的動作a=π(s).

為了優(yōu)化策略，需要評價策略的好壞，直觀方法是對比不同策略在某一特定狀態(tài)下的累計獎勵.在隨機策略π下，計算累積獎勵Gt會有多個可能值，無法進行對比，但可對Gt求期望，進行對比.因此定義累積獎勵在狀態(tài)s處的期望為狀態(tài)值函數(shù)(Value Function)，簡稱值函數(shù)，記為

Vπ(s)=E[Gt|st=s].

在某一狀態(tài)s處，選擇不同的動作a會導(dǎo)致不同的累積獎勵.定義在狀態(tài)s處選擇動作a的累積獎勵的期望為狀態(tài)-動作值函數(shù)(QFunction)，簡稱Q值函數(shù)，記為

Qπ(s,a)=E[Gt|st=s，at=a].

值函數(shù)和Q值函數(shù)關(guān)系如下[8]：

在強化學(xué)習(xí)問題中，策略與值函數(shù)一一對應(yīng),最優(yōu)策略對應(yīng)的值函數(shù)稱為最優(yōu)值函數(shù).可證明，最優(yōu)策略與最優(yōu)值函數(shù)具有等價性，該最優(yōu)值函數(shù)滿足貝爾曼最優(yōu)性原理[2]：

通常情況下，可通過迭代解法近似求解最優(yōu)值函數(shù)[2].求出最優(yōu)值函數(shù)后，可根據(jù)最優(yōu)值函數(shù)與最優(yōu)策略的關(guān)系進一步導(dǎo)出最優(yōu)策略:

2.2 基于模型的強化學(xué)習(xí)

無模型強化學(xué)習(xí)和基于模型的強化學(xué)習(xí)的主要區(qū)別是機器人決策過程中是否需要環(huán)境的動力學(xué)模型.無模型的強化學(xué)習(xí)方法中，機器人無法知道環(huán)境模型，只能通過不斷與環(huán)境交互，收集樣本，優(yōu)化策略以學(xué)習(xí).基于模型的強化學(xué)習(xí)會學(xué)習(xí)一個環(huán)境模型，并基于此模型進行策略優(yōu)化或規(guī)劃.基于模型的強化學(xué)習(xí)可定義為：基于一個已知或習(xí)得的模型，學(xué)習(xí)近似一個全局值函數(shù)或策略以求解MDP[9]，過程如圖2所示.

圖2 基于模型的強化學(xué)習(xí)Fig.2 Model-based reinforcement learning

根據(jù)這個定義中的2個關(guān)鍵點——模型學(xué)習(xí)和策略優(yōu)化，可以將基于模型的強化學(xué)習(xí)劃分為3類[9].

1)模型已知，只需要通過規(guī)劃學(xué)習(xí)一個全局值函數(shù)或策略.

2)模型未知，需要學(xué)習(xí)模型，基于模型進行規(guī)劃而不需要學(xué)習(xí)全局值函數(shù)或策略.

3)模型未知，需要同時學(xué)習(xí)模型和全局值函數(shù)或策略.

在機器人操作領(lǐng)域，大多時候無法直接得到環(huán)境模型，因此第1類基于模型的強化學(xué)習(xí)方法應(yīng)用較少.對于一些棋牌游戲，規(guī)則是人類事先設(shè)定，可直接得到模型，如用于圍棋的AlphaGo Zero[10].第2類方法和第3類方法都需要學(xué)習(xí)環(huán)境模型，在機器人操作領(lǐng)域應(yīng)用較多.本文涉及的方法以第2類和第3類為主.

3 學(xué)習(xí)環(huán)境的動力學(xué)模型

3.1 模型學(xué)習(xí)概要

基于模型的強化學(xué)習(xí)，學(xué)習(xí)環(huán)境的動力學(xué)模型是算法中不可或缺的一步.本文將動力學(xué)模型分為3類：1)前向動力學(xué)模型，2)逆向動力學(xué)模型，3)隱式模型.具體如圖3所示.

圖3 動力學(xué)模型分類Fig.3 Dynamics model taxonomy

前向動力學(xué)模型根據(jù)當前時刻狀態(tài)和當前動作預(yù)測下一時刻的狀態(tài)，即(st,at) →st+1，這是目前應(yīng)用最廣的動力學(xué)模型.逆向動力學(xué)模型通過當前時刻狀態(tài)和下一時刻狀態(tài)推斷當前時刻應(yīng)采用的動作，即(st,st+1) →at，這種模型大多應(yīng)用在基于圖像為輸入的任務(wù)上.隱式模型不關(guān)注對下一時刻狀態(tài)的精確預(yù)測.

模型的學(xué)習(xí)主要有參數(shù)化方法和非參數(shù)化方法兩種.參數(shù)化方法是當前通用的模型近似方法，最基本的形式是表格模型，但僅能應(yīng)用于離散狀態(tài)空間，在早期的強化學(xué)習(xí)方法[11-12]中較常見，應(yīng)用受限，泛化性較差.機器人操作任務(wù)的狀態(tài)空間和動作空間通常都是連續(xù)的，例如，狀態(tài)可以是物體的連續(xù)位姿、機械臂的關(guān)節(jié)位置，動作是機械臂各關(guān)節(jié)的扭矩.因此環(huán)境模型也均為連續(xù)模型，故本文不再討論表格模型.參數(shù)化方法另一形式是函數(shù)近似，通過擬合一個函數(shù)以描述系統(tǒng)動力學(xué)模型.近似方法有多種，如線性回歸[13-14]、動態(tài)貝葉斯回歸(Dynamic Bayesian Networks, DBN)[15]、最近鄰[16]、隨機森林[17]、支持向量回歸[18]和神經(jīng)網(wǎng)絡(luò)[19-20].隨著深度學(xué)習(xí)的發(fā)展，深度神經(jīng)網(wǎng)絡(luò)已變?yōu)槟Ｐ蛯W(xué)習(xí)中最廣泛的方法.深度神經(jīng)網(wǎng)絡(luò)具有較優(yōu)的特征提取能力和良好的非線性函數(shù)逼近能力，能擴展到高維圖像輸入，契合機器人學(xué)習(xí)問題.

非參數(shù)化的方法主要有高斯過程(Gaussian Processes)[21]和局部加權(quán)回歸(Locally Weighted Regression)[22].這類模型雖然泛化性能有限，但樣本效率較高.此外，高斯過程還可用于描述模型中的不確定性.由于非參數(shù)化方法的計算復(fù)雜度取決于樣本數(shù)據(jù)集的大小，導(dǎo)致其難以擴展到高維問題.從某種意義上說，用于存放經(jīng)驗樣本的重放緩沖區(qū)(Replay Buffer)[23]也算是一種非參數(shù)化的模型.van Hasselt等[24]討論重放緩沖區(qū)和參數(shù)化模型的區(qū)別，并說明參數(shù)化模型在強化學(xué)習(xí)中的應(yīng)用時機.

動力學(xué)模型還可分為全局模型和局部模型.全局模型近似整個狀態(tài)空間，學(xué)習(xí)到的模型對整個狀態(tài)空間都是有效的.而局部模型只對動力學(xué)模型進行局部近似，圍繞局部模型進行規(guī)劃.局部模型的優(yōu)點是在近似環(huán)境時可選擇簡單函數(shù)，如線性函數(shù)，從而可配合某些特定的規(guī)劃算法.

此外，對于某些基于強化學(xué)習(xí)的算法來說，還需要學(xué)習(xí)一個獎勵函數(shù)模型.例如，利用潛在動力學(xué)模型進行策略學(xué)習(xí)過程依賴于定義在潛在空間上的獎勵函數(shù).

3.2 前向動力學(xué)模型

3.2.1 普通前向動力學(xué)模型

本節(jié)描述的普通前向動力學(xué)模型是指環(huán)境模型中的狀態(tài)可表示為低維向量的前向動力學(xué)模型，即輸入當前狀態(tài)和動作得到下一時刻的狀態(tài)，一般形式是一個確定性函數(shù)f(st,at)=st+1或一個隨機分布

f(st,at)=P(st+1|st,at)，

結(jié)構(gòu)如圖4所示.

圖4 前向動力學(xué)模型結(jié)構(gòu)圖Fig.4 Structure of forward dynamics model

模型的學(xué)習(xí)一般通過監(jiān)督學(xué)習(xí)的方式進行.給定當前狀態(tài)，機器人執(zhí)行一個動作和環(huán)境交互，到達下一個狀態(tài)，從而得到一組數(shù)據(jù)樣本{st,at,st+1}.收集足夠樣本后，可用監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)模型.在基于模型的強化學(xué)習(xí)算法中，模型的學(xué)習(xí)和策略的優(yōu)化通常迭代進行，先通過監(jiān)督學(xué)習(xí)學(xué)到一個模型，基于此模型進行策略優(yōu)化，然后用新策略和環(huán)境交互得到數(shù)據(jù)，再學(xué)一個更精確的模型，如此迭代進行.

學(xué)習(xí)到的動力學(xué)模型會存在不確定性.不確定性可分為2種：1)固有的隨機性，也稱為任意不確定性(Aleatoric Uncertainty)，2)認知不確定性(Epistemic Uncertainty)[25].固有的隨機性是指模型在預(yù)測下一步狀態(tài)時，會有一個自帶的隨機性.例如，擲一個骰子，落下時朝上的一面是隨機的.認知不確定性是指因為數(shù)據(jù)樣本不可能完全覆蓋整個狀態(tài)空間，所以模型在狀態(tài)空間的某些區(qū)域必定是不準確的.

隨機性在機器人操作任務(wù)中很常見[22,26]，通常使用概率模型捕捉噪聲并近似估計下一時刻狀態(tài)的分布.例如，在均方誤差損失上訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)f(st,at)時，實際上該神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)輸出下一時刻狀態(tài)的均值和方差[27]，通常使用這個均值和方差組成高斯分布，在分布中采樣得到下一時刻的狀態(tài).

模型的認知不確定性不同于隨機性.隨機性源于事物本身，無法減少.而認知不確定性源于數(shù)據(jù)不足，理論上可通過增加樣本數(shù)據(jù)以減小.在解決認知不確定性上較成功的方法是非參數(shù)的貝葉斯方法.貝葉斯方法建立概率動力學(xué)模型，捕捉模型預(yù)測中的不確定性[21,28].基于核的高斯過程是目前學(xué)習(xí)動力學(xué)模型通用的貝葉斯方法之一[21,29].Deisenroth等[30]提出PILCO (Probabilistic Inference for Learning Control),使用高斯過程對環(huán)境動力學(xué)進行建模，得到概率動力學(xué)模型，可表達學(xué)習(xí)到的動力學(xué)模型的不確定性，并將模型不確定性集成到長期的規(guī)劃和決策中.高斯過程存在的問題是難以擴展到高維情況.Gal等[31]使用貝葉斯網(wǎng)絡(luò)代替高斯回歸模型，成功將PILCO擴展到高維系統(tǒng)中.

在神經(jīng)網(wǎng)絡(luò)中解決認知不確定性的典型方法如下.Kurutach等[32]提出模型集成(Model-Ensemble)方法，使用相同真實世界中的樣本數(shù)據(jù)擬合一組動力學(xué)模型集合{fφ1,fφ2,…,fφk}.這些模型的不同僅在于初始權(quán)重不同及訓(xùn)練時從真實世界中抽取樣本的抽取小批量(Mini-batches)樣本的順序不同.此外在策略優(yōu)化的過程中隨機選擇一個模型預(yù)測給定當前狀態(tài)和動作的下一個狀態(tài).模型集成的方法減小不確定性，使學(xué)習(xí)的過程更穩(wěn)定，簡單靈活，在基于模型的強化學(xué)習(xí)中被廣泛應(yīng)用.模型不確定性目前仍是基于模型的強化學(xué)習(xí)和深度學(xué)習(xí)的熱點問題之一.

學(xué)習(xí)到環(huán)境模型之后，可進行規(guī)劃.規(guī)劃過程會得到一條決策序列.上述涉及的均是單步預(yù)測模型，在規(guī)劃過程中反復(fù)利用模型進行單步預(yù)測,但是由于存在隨機性和不確定性，學(xué)到的模型中會存在誤差.而在多次單步預(yù)測過程中，會累積模型誤差，從而導(dǎo)致序列與真實情況相背離.這一問題廣泛存在于基于模型的強化學(xué)習(xí)中[33-34].

如何獲得更好的多步預(yù)測，目前主要有2種方法.1)改進損失函數(shù).Abbeel等[35]提出在模型的訓(xùn)練過程中包括多步的預(yù)測損失.通過最大似然法得到模型網(wǎng)絡(luò)參數(shù)：

模型仍然是單步預(yù)測，但是不同于預(yù)測下一時刻狀態(tài)的普通模型，該模型的損失函數(shù)中包括多步之后的預(yù)測損失.

2)Asadi等[36]提出學(xué)習(xí)一個預(yù)測n步的動力學(xué)模型.模型可表示為

Tn(s,s′,π)=Pr(st+n=s′|st=s,π),

即基于當前時刻的狀態(tài)和未來的動作序列預(yù)測當前時刻之后第n步的狀態(tài)分布.通過實驗說明此模型長期預(yù)測的累積誤差小于單步預(yù)測模型.相比預(yù)測n步的動力學(xué)模型，Mishra等[37]進一步提出預(yù)測整個序列的模型.對于多步預(yù)測的模型，如何更好地衡量模型性能也是一個問題.

利用環(huán)境動力學(xué)模型可大幅提高強化學(xué)習(xí)的樣本效率，但模型誤差會降低基于模型的強化學(xué)習(xí)的性能，因此學(xué)習(xí)模型時如何降低模型的不確定性及控制模型誤差是當前的主要挑戰(zhàn).

3.2.2 基于圖像的動力學(xué)模型

本節(jié)討論基于圖像的動力學(xué)模型的學(xué)習(xí).人類感知環(huán)境最基本的方式是視覺.類似于人類，機器人也可通過攝像頭感知環(huán)境.此時機器人能接收到的原始狀態(tài)就是攝像頭傳遞的圖像輸入，通常稱為觀測(Observation).相比普通狀態(tài),圖像輸入的顯著特點就是維度變大.普通低維狀態(tài)可能從幾維到幾十維，而以一幅64×64的RGB圖像作為狀態(tài)，維度高達12 288維.高維的難點在于:1)維度增加，計算量也會大幅增加，即維度詛咒；2)高維圖像輸入中有許多冗余信息，影響機器人的學(xué)習(xí).

高維圖像的動力學(xué)模型幾乎只能靠深度神經(jīng)網(wǎng)絡(luò)完成.Levine等[4]實現(xiàn)端到端的機器人操作，輸入圖像，輸出動作.經(jīng)過巧妙推導(dǎo)，得出不需要學(xué)習(xí)一個圖像轉(zhuǎn)移模型，而是需要學(xué)習(xí)一個狀態(tài)轉(zhuǎn)移模型p(xt+1|xt,ut) 和一個觀測分布p(ot|xt)的結(jié)論,并且只在訓(xùn)練中需要觀測分布，在測試時不需要.雖然實現(xiàn)策略以圖像輸入作為狀態(tài)產(chǎn)生動作，但是算法訓(xùn)練過程仍需要知道系統(tǒng)的狀態(tài)xt，狀態(tài)不僅需要包含機器人本身的信息，還需要知道物體的位置信息等.

Finn等[38]真正提出可應(yīng)用于機器人的基于圖像的環(huán)境動力學(xué)模型，利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network， CNN)和長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory， LSTM)，可預(yù)測從當前幀到下一幀的隨機像素流變換(Pixel Flow Transformation)，可在先前幀直接獲取圖像的背景信息，合并兩者，能更好地預(yù)測未來多步視頻序列.該模型真正實現(xiàn)輸入機器人狀態(tài)、動作和圖像，輸出下一幀圖像，而不需要標簽物體的信息.此后，F(xiàn)inn等[39]進一步將該模型結(jié)合規(guī)劃算法，真正應(yīng)用在機器人控制上.

Ebert等[40]基于Finn等的工作進一步改進模型，提出SNA(Skip Connection Neural Advection Model).SNA可使用時間上的跳躍連接處理遮擋問題，當一個像素被機器人手臂或其它物體遮擋時，仍可在序列的后面重新出現(xiàn).

基于圖像的動力學(xué)模型還存在部分可觀測的(Partial Observability)問題.當觀測(Observation)不能提供關(guān)于MDP真實狀態(tài)的所有信息時，MDP會產(chǎn)生部分可觀測性.圖像觀測多數(shù)時無法反映真實狀態(tài)的所有信息，如環(huán)境中有遮擋，無法知道遮擋后的物體信息.Levine等[4]的方法需要知道真實的狀態(tài)信息，因此規(guī)避部分可觀測性.部分可觀測性源于當前觀測中信息的缺乏，但可通過納入以前的觀測信息以部分緩解，因此Finn和Ebert等提出的基于圖像的環(huán)境動力學(xué)模型都使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network， RNN)或LSTM，以此緩解部分可觀測帶來的問題.

對于部分可觀測性還可通過串聯(lián)n個觀測，作為一個狀態(tài)來處理.這在以圖像為輸入的強化學(xué)習(xí)中較常見，DQN(DeepQ-Network)及其衍生系列算法[41-48]就使用這種方法.

3.2.3 潛在動力學(xué)模型

基于圖像的動力學(xué)模型的缺點在于需要重構(gòu)圖像，即使訓(xùn)練好模型，測試時也需要重構(gòu)圖像，耗費算力.因此研究者們提出使用表示學(xué)習(xí)(Representation Learning)結(jié)合潛在的動力學(xué)模型(Latent Dynamics Model)緩解此問題.表示學(xué)習(xí)主要用于降維，本身也是機器學(xué)習(xí)一個重要研究領(lǐng)域.

一個潛在動力學(xué)模型可分為3部分：1)編碼器(Encoder)zt=fφ(ot)，將觀測結(jié)果ot映射到潛在狀態(tài)(Latent State)zt上；2)潛在狀態(tài)轉(zhuǎn)移函數(shù)zt+1=fθ(zt,at)，根據(jù)當前潛在狀態(tài)和動作計算得到下一個潛在狀態(tài)；3)解碼器(Decoder)ot+1=fψ(zt+1)，將潛在狀態(tài)重新映射回觀測.編碼器、轉(zhuǎn)移函數(shù)和解碼器均為深度神經(jīng)網(wǎng)絡(luò)，φ、θ、ψ為對應(yīng)的網(wǎng)絡(luò)參數(shù).

潛在動力學(xué)模型的重點如下：1)要學(xué)到一個足夠好的緊湊表示；2)潛在轉(zhuǎn)移函數(shù)能確保進行規(guī)劃.

當前強化學(xué)習(xí)中較優(yōu)的表示學(xué)習(xí)方法是深度神經(jīng)網(wǎng)絡(luò)，其中生成模型，如變分自編碼器(Variational Auto-Encoder, VAE)[49]，應(yīng)用尤為廣泛.VAE通過最大化條件觀測p(ot|zt) 的似然函數(shù)進行學(xué)習(xí)表示，即需要從潛在狀態(tài)對觀測進行像素級的重構(gòu).許多基于模型的強化學(xué)習(xí)工作[50-52]在學(xué)習(xí)表示時都采用VAE.

學(xué)到足夠好的緊湊表示，意味著潛在狀態(tài)能盡可能多地編碼觀測中的有用信息.通過標準VAE學(xué)習(xí)表示需要進行像素級重構(gòu)，這表明其潛在狀態(tài)含有與任務(wù)無關(guān)的信息，不夠緊湊.目前有如下2種思路幫助學(xué)習(xí)緊湊的表示.1)加入先驗知識，學(xué)到一個緊湊表示.Diuk等[53]提出OO-MDPs(Object-Oriented MDPs)，旨在學(xué)習(xí)到場景中的物體及其交互.這類方法的難點在于如何加入先驗知識，一種方法是通過使用明確的物體識別器.例如，F(xiàn)ragkiadaki等[54]結(jié)合物體識別器學(xué)習(xí)場景中物體運動的規(guī)律以泛化到稍有不同的其它環(huán)境，Kansky等[55]結(jié)合物體識別器，試圖描述物體的局部因果關(guān)系并結(jié)合到規(guī)劃中.另一種方法是將先驗知識嵌入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中.在圖神經(jīng)網(wǎng)絡(luò)的一些研究中[56-57]，圖的節(jié)點對應(yīng)物體，邊對應(yīng)物體的關(guān)系，物體間的相互作用通過圖神經(jīng)網(wǎng)絡(luò)建模.Kipf等[58]提出C-SWMs(Contrastively Trained Structured World Models)，通過圖神經(jīng)網(wǎng)絡(luò)對物體的關(guān)系進行建模，并利用對比學(xué)習(xí)的損失函數(shù)進行訓(xùn)練.Watters等[59]采用MONet(Multi-object Network)[60]學(xué)習(xí)場景的表示，MONet是一個自動回歸的VAE，可在無監(jiān)督的情況下學(xué)習(xí)將場景分解為實體，用于學(xué)習(xí)更有效的表示.Veerapaneni等[61]提出OP3(Object-Centric Perception, Prediction, and Planning)框架，試圖讓機器人理解什么是對象.引入的先驗知識為場景中的物體遵循相同的物理規(guī)律，故場景建?？赊D(zhuǎn)為對物體和決定物體間交互的局部物理過程的建模，使用一個以物體為中心的函數(shù)(Entity-Centric Function)建模，再將此函數(shù)應(yīng)用于場景中的每個物體，簡化多物體動態(tài)場景.因此OP3可將潛在狀態(tài)分解為局部物體狀態(tài)，每個局部狀態(tài)均可通過相同的函數(shù)進行處理.

2)改進損失函數(shù)以學(xué)習(xí)緊湊表示.典型的做法是結(jié)合對比學(xué)習(xí)(Contrastive Learning)的思想構(gòu)造對比損失.Ma等[62]結(jié)合對比學(xué)習(xí)，在標準VAE中使用對比損失替換觀測重構(gòu)項p(ot|zt)，學(xué)習(xí)一個緊湊表示.Sermanet等[63]構(gòu)造專家樣本時從不同視角記錄相同的動作序列，構(gòu)造對比損失函數(shù)強制同一狀態(tài)不同視角在潛在空間中相互接近，以此學(xué)習(xí)好的表示.Ghosh 等[64]構(gòu)造基于兩個狀態(tài)之間相互抵達所需動作次數(shù)的損失，使通過較少次數(shù)動作就可相互抵達的狀態(tài)對在表示空間中也較接近.由此學(xué)得的緊湊表示更有利于規(guī)劃.改進損失函數(shù)也可和先驗知識結(jié)合，即通過改進損失函數(shù)體現(xiàn)先驗知識.Jonschkowski等[65]將物理學(xué)規(guī)律作為先驗知識，通過改進損失函數(shù)將其引入以學(xué)習(xí)緊湊表示.Kipf等[58]的方法也可看作引入先驗知識和改進損失函數(shù)兩者的結(jié)合.

潛在狀態(tài)轉(zhuǎn)移函數(shù)能確保進行規(guī)劃意味著要保證轉(zhuǎn)移函數(shù)預(yù)測的下個潛在狀態(tài)與編碼的當前觀測的潛在狀態(tài)在同個嵌入空間.通常做法是增加一個損失函數(shù)，強制轉(zhuǎn)移函數(shù)預(yù)測的下個潛在狀態(tài)接近下一時刻真實觀測通過編碼器得到的潛在狀態(tài)[50].此外，有時還可對潛在狀態(tài)轉(zhuǎn)移函數(shù)進行一些額外限制，以配合特定的規(guī)劃算法.例如，線性二次調(diào)節(jié)器(Linear Quadratic Regulator, LQR)適用于線性動力學(xué)函數(shù)，因此在一些工作[50-51]中，研究者將其潛在狀態(tài)轉(zhuǎn)移函數(shù)進行局部線性化，可應(yīng)用線性二次調(diào)節(jié)器進行規(guī)劃.

潛在動力學(xué)模型的研究重點還是在表示學(xué)習(xí)上，一個好的表示能提升算法學(xué)習(xí)與性能.目前許多工作都集中在確保潛在狀態(tài)盡可能多地蘊含有用信息，然而一個好的表示也需要盡可能剔除無關(guān)信息.如何引入先驗知識，使表示中更多地蘊含有用信息同時剔除無關(guān)信息是一個值得研究的問題.

3.3 逆向動力學(xué)模型

與前向的潛在動力學(xué)模型類似，逆向動力學(xué)模型在強化學(xué)習(xí)中通常也是和表示學(xué)習(xí)結(jié)合，即通過編碼器將觀測ot映射到潛在狀態(tài)st上，再通過前后兩個時刻的潛在狀態(tài)預(yù)測當前時刻應(yīng)采取的動作：(st,st+1) →at，結(jié)構(gòu)如圖5所示.逆向動力學(xué)模型的引出是因為在狀態(tài)表征復(fù)雜、前向動力學(xué)模型學(xué)習(xí)困難的任務(wù)中，逆向動力學(xué)結(jié)合某些先驗知識效果更優(yōu)，同時輸出動作可作為監(jiān)督信息.

圖5 逆向動力學(xué)模型結(jié)構(gòu)圖Fig.5 Structure of inverse dynamics model

Pathak等[66]提出 ICM(Intrinsic Curiosity Module)，集成逆向模型和前向模型.作者認為使用逆向模型可學(xué)習(xí)到有用的信息，忽視無關(guān)信息，由此學(xué)到一個好的表示.Agrawal等[67]聯(lián)合訓(xùn)練前向模型和逆向模型，在聯(lián)合訓(xùn)練中，逆向模型將觀測編碼為潛在狀態(tài)，可為前向模型預(yù)測的潛在狀態(tài)提供監(jiān)督，實踐中聯(lián)合損失由逆向模型損失與前向模型損失之和構(gòu)成.

Shelhamer等[68]將逆向動力學(xué)作為輔助的損失函數(shù).初衷是為了增加獎勵，對于強化學(xué)習(xí)任務(wù)，獎勵稀疏意味著缺乏監(jiān)督，逆向模型可從相鄰狀態(tài)預(yù)測動作.作者指出此動作和與環(huán)境交互的動作的誤差可起到自監(jiān)督的作用.Zhang等[69]將表示學(xué)習(xí)、獎勵函數(shù)、前向動力學(xué)模型和逆向動力學(xué)模型進行解耦，并指出逆向模型在穩(wěn)定學(xué)習(xí)方面具有重要作用.

其它一些工作[70-72]試圖利用逆向動力學(xué)學(xué)習(xí)環(huán)境中可控制的部分.逆向動力學(xué)模型在應(yīng)用中通常是針對狀態(tài)表征復(fù)雜、前向動力學(xué)模型學(xué)習(xí)困難的特殊任務(wù)，和表示學(xué)習(xí)結(jié)合后形成逆向的潛在動力學(xué)模型.主要挑戰(zhàn)是如何將逆向和先驗知識有機結(jié)合，學(xué)到更好的表示.

3.4 隱式模型

一般的前向動力學(xué)模型通過當前狀態(tài)和動作預(yù)測環(huán)境的下一時刻狀態(tài)，這是典型的顯式模型.強化學(xué)習(xí)的最終目的是找到針對特定任務(wù)的最優(yōu)策略.因此真正值得關(guān)心的并非狀態(tài)，而是最優(yōu)價值或最優(yōu)策略.隱式模型通過學(xué)習(xí)其它函數(shù)，可達到與顯式模型相同的效果.相比顯式模型，隱式模型不關(guān)注下一時刻狀態(tài)的精確預(yù)測.

Grimm等[73-74]提出價值等價模型(Value Equivalent Models)，指出如果一個模型能預(yù)測價值，則狀態(tài)信息就不再重要，并說明在相同的貝爾曼算子下，兩個模型對一組函數(shù)和一組策略能產(chǎn)生相同的更新，則這兩個模型是價值等價的.Farquhar等[75]進一步提出自洽的價值等價模型.應(yīng)用價值等價模型的典型例子是MuZero[76].MuZero訓(xùn)練模型時從重放緩存區(qū)(Replay Buffer)中選擇一條軌跡，輸入第一個狀態(tài)和整個動作序列，將模型展開K步，其中展開的每步動作都是動作序列中的真實動作，預(yù)測獎勵值、價值和策略.聯(lián)合損失函數(shù)表示如下：

價值等價模型更早要追溯到Silver等[77]工作.他們的工作與MuZero不同之處在于只接收一個狀態(tài)作為輸入而不需要動作序列，展開模型只預(yù)測該狀態(tài)的價值.價值預(yù)測網(wǎng)絡(luò)(Value Prediction Network, VPN)[78]與MuZero類似，但預(yù)測獎勵、價值和折扣因子.價值等價模型經(jīng)常也和表示學(xué)習(xí)結(jié)合，從某種意義上說，可作為一種先驗知識以輔助學(xué)習(xí)緊湊表示.

隱式模型也存在著一些問題.以價值等價模型為例，學(xué)到的預(yù)測都集中在價值和獎勵信息上.而這些信息來源于獎勵這一簡單的標量信息，因此可能會遺漏環(huán)境的一些相關(guān)信息.此外，目前的隱式模型針對的環(huán)境動作空間較簡單，大都為離散動作空間，因此在機器人領(lǐng)域應(yīng)用較少.

4 模型利用

學(xué)習(xí)到環(huán)境模型之后，下一步就是如何利用學(xué)到的模型.通常在基于模型的強化學(xué)習(xí)中，模型主要有3種用途：1)基于模型的規(guī)劃，對應(yīng)2.2節(jié)中的第2類方法；2)基于模型的策略學(xué)習(xí)，對應(yīng)2.2節(jié)中的第3類方法；3)隱式規(guī)劃，這是一類特殊的基于模型的強化學(xué)習(xí)方法，兼有前兩類的一些特點.

4.1 基于模型的規(guī)劃

學(xué)習(xí)到環(huán)境的動力學(xué)模型后，可直接利用模型進行規(guī)劃.強化學(xué)習(xí)可轉(zhuǎn)化成一個最優(yōu)控制問題，通過規(guī)劃算法得到最優(yōu)策略，也可利用規(guī)劃算法產(chǎn)生較好的樣本輔助學(xué)習(xí).規(guī)劃算法種類繁多，應(yīng)用廣泛，按照交互方式主要可分為2類：開環(huán)規(guī)劃與閉環(huán)規(guī)劃.開環(huán)規(guī)劃中環(huán)境給出初始狀態(tài)s0，機器人根據(jù)動力學(xué)模型規(guī)劃一條完整的動作序列，如圖6(a)所示.閉環(huán)規(guī)劃中環(huán)境給出一個狀態(tài)，機器人根據(jù)動力學(xué)模型進行規(guī)劃，執(zhí)行規(guī)劃動作，模型接收到機器人的動作后再給出下一個狀態(tài)，往復(fù)循環(huán)，如圖6(b)所示.

(a)開環(huán)規(guī)劃 (b)閉環(huán)規(guī)劃(a)Open-loop planning (b)Closed-loop planning圖6 規(guī)劃過程Fig.6 Planning process

由于隨機性和不確定性，模型會存在誤差，如果僅在得知初始狀態(tài)后進行規(guī)劃，可能造成很大的累積誤差.這是開環(huán)規(guī)劃本身存在的問題.為了解決這個問題，引出模型預(yù)測控制(Model Predictive Control, MPC).MPC并非一個固定算法，而是一個控制框架，可對其進行很多擴展.MPC的思想如下.在每次迭代中，第一步，在執(zhí)行某個動作后，根據(jù)環(huán)境動力學(xué)模型預(yù)測下一個狀態(tài).第二步，求解一個開環(huán)優(yōu)化問題，這一步可應(yīng)用某些具體的開環(huán)規(guī)劃算法，如CEM.第三步，執(zhí)行第二步求解的第1個動作，如此反復(fù)進行.可看到，MPC是閉環(huán)控制框架，但在每次迭代中都會優(yōu)化一個開環(huán)控制問題.MPC在基于模型的強化學(xué)習(xí)中應(yīng)用廣泛，機器人操作[39,79]、自動駕駛[80]、無人機[81]等均有應(yīng)用.CEM經(jīng)常作為MPC第二步的開環(huán)規(guī)劃算法，典型算法有Visual MPC[39]、PlaNet(Deep Planning Network)[82].MPC計算量較大，收斂較慢，適合簡單模型.

閉環(huán)規(guī)劃在強化學(xué)習(xí)中應(yīng)用最廣泛的是蒙特卡羅樹搜索(Monte Carlo Tree Search, MCTS)和線性二次調(diào)節(jié)器(Linear Quadratic Regulator, LQR).MCTS適用于離散動作空間，核心搜索過程可分為四步.第一步,選擇.從已知的樹節(jié)點中根據(jù)UCT(Upper Confidence Bounds for Trees)值選擇最值得探索的節(jié)點.第二步,擴展.從這個節(jié)點選擇一個沒被執(zhí)行過的行動，執(zhí)行這個行動得到下一個狀態(tài)，然后根據(jù)這個狀態(tài)創(chuàng)建節(jié)點.第三步,根據(jù)擴展出的子節(jié)點,利用學(xué)到的模型進行模擬，直至結(jié)束產(chǎn)生結(jié)果.第四步,回傳信息.模擬結(jié)束后，將結(jié)果回傳給前面所有的父節(jié)點，更新它們的估計值.UCT值的計算公式為

其中,Q(st)表示某個狀態(tài)的價值，N(st)表示對某個狀態(tài)的探索次數(shù)，st-1表示st的上一個狀態(tài)，即父節(jié)點.上式平衡探索和利用，等號后的第1項可看作當前狀態(tài)的平均價值，第2項衡量探索次數(shù).參數(shù)C調(diào)整探索和利用之間的權(quán)重關(guān)系.可看到，一個節(jié)點要被選中，必須是價值較大或探索次數(shù)較少.MCTS適用于離散動作空間，在自動駕駛和機器人上均有應(yīng)用[83-84].

LQR適用于連續(xù)動作空間，源于控制論，但在控制領(lǐng)域的符號表示和強化學(xué)習(xí)有所不同.觀測狀態(tài)st→xt，動作at→ut，獎勵函數(shù)變?yōu)閾p失函數(shù)r(s,a)→c(x,u)，最大化問題轉(zhuǎn)為最小化問題.

假設(shè)獎勵函數(shù)r(st,at)為一個二次函數(shù)，而狀態(tài)轉(zhuǎn)移函數(shù)f(st,at)為一個線形函數(shù)，其優(yōu)化問題形式為

LQR包含反向計算和前向計算，具體過程可參考最優(yōu)控制.標準LQR中模型是線性確定的.針對隨機模型，可將高斯分布應(yīng)用到狀態(tài)轉(zhuǎn)移函數(shù)中，從而引入隨機性.LQR擴展的迭代線性二次調(diào)節(jié)器(Iterative LQR, iLQR)可應(yīng)用到非線性模型中.iLQR中的動力學(xué)模型近似是一階近似，將其擴展到二階，就是微分動態(tài)規(guī)劃(Differential Dynamic Programming, DDP).LQR及其擴展方法在基于模型的強化學(xué)習(xí)中應(yīng)用廣泛.LQR適用于誤差較小的模型，基于引導(dǎo)策略搜索(Guided Policy Search)的一類算法[4，85-86]是應(yīng)用LQR系列規(guī)劃方法的典型代表.

MPC、CEM存在的問題是計算量較大，收斂較慢.應(yīng)用MPC、CEM，每輸入一個狀態(tài)，需再次規(guī)劃才能獲取輸出動作，而一個訓(xùn)練好的策略直接將狀態(tài)映射為動作，實際應(yīng)用中訓(xùn)練好的策略比規(guī)劃算法更快.LQR本身有敏感性的問題，初始動作中一點微小的改變會導(dǎo)致下游狀態(tài)變化很大，模型存在誤差時，這一點尤為嚴重.因而引導(dǎo)策略搜索一類算法[4，85-86]中利用iLQR/DDP產(chǎn)生好的樣本以引導(dǎo)策略學(xué)習(xí)，最終仍會得到一個策略.

4.2 基于模型的策略學(xué)習(xí)

模型的另一種用法就是和無模型的強化學(xué)習(xí)算法結(jié)合，利用模型輔助無模型強化學(xué)習(xí)訓(xùn)練策略.可細分為2種：1)通過模型的預(yù)測能力生成虛擬訓(xùn)練數(shù)據(jù)，如圖7(a)所示；2)利用模型的可微性實現(xiàn)模型學(xué)習(xí)梯度的端到端反向傳播，如圖7(b)所示.

(a)模型生成虛擬訓(xùn)練數(shù)據(jù)(a)Imaginary training data generated by model

(b)利用模型的可微性進行端到端學(xué)習(xí)(b)End-to-end learning based on model differentiability圖7 基于模型的策略學(xué)習(xí)Fig.7 Model-based policy learning

4.2.1 基于模型的虛擬數(shù)據(jù)生成

這類算法主要是將模型虛擬展開，生成數(shù)據(jù)，混合真實數(shù)據(jù)和虛擬數(shù)據(jù)以訓(xùn)練算法，這也是MBRL樣本效率較高的原因.該類算法典型代表是文獻[11].由于隨機性和不確定性，模型會存在誤差.此外，用于近似模型的函數(shù)也可能存在近似誤差，同時模型誤差還會累積傳播形成復(fù)合誤差.如何減小模型誤差的影響是一個問題.

Kurutach等[32]通過模型集成表達環(huán)境的不確定性，同時指出建模時數(shù)據(jù)較少的區(qū)域模型誤差會較大，而在這些區(qū)域探索會增加模型誤差的影響.因此作者在TRPO(Trust Region Policy Optimization)上增加一個迭代閾值，限制策略朝著環(huán)境不熟悉的地方迭代，以此減小模型誤差的影響.

Kalweit等[87]認為誤差較大的模型提供的數(shù)據(jù)質(zhì)量較低，會影響算法的最終效果.因此作者把DDPG(Deep Deterministic Policy Gradient)的重放緩存區(qū)一分為二，傳統(tǒng)的重放緩存區(qū)存儲真實環(huán)境數(shù)據(jù)，想象的重放緩存區(qū)存儲虛擬環(huán)境的數(shù)據(jù).通過計算Q值的不確定性，得到一個動態(tài)概率P，以此決定從哪個重放緩存區(qū)中獲取數(shù)據(jù).這樣增加對真實數(shù)據(jù)的利用，減少對模型生成數(shù)據(jù)的利用，限制模型誤差的影響.

Gu等[88]針對環(huán)境模型預(yù)估不準的問題，采用基于時間序列的線性模型建模環(huán)境，但為了達到最佳效果，在訓(xùn)練中會啟發(fā)式地停用模型.Feinberg等[89]闡明上述方法可能是無效的，因此提出MVE(Model-Based Value Expansion)，將模型的展開保持在一個固定深度，控制模型的不確定性，目標Q值是先通過環(huán)境模型模擬H步之后，再進行Q值估計.于是Q值的估計融合基于環(huán)境動力學(xué)模型的短期預(yù)估及基于目標Q值網(wǎng)絡(luò)的長期預(yù)估，步數(shù)H限制復(fù)合誤差的累積，提高Q值的準確性.

Buckman等[90]改進MVE，提出STEVE(Stochastic Ensemble Value Expansion).文章指出MVE要想獲得好的效果，需要依賴調(diào)整展開(Rollout)的步數(shù)H，但在復(fù)雜環(huán)境中H過大會引入較大誤差，而簡單環(huán)境步數(shù)H過小又會減小Q值的估計精度.作者在不同環(huán)境中展開特定步數(shù)，計算每步的不確定性,動態(tài)調(diào)整及整合不同步數(shù)之間Q值的權(quán)重，并且確保僅在不引入重大誤差時才使用模型，以此限制模型誤差的影響.

對于模型誤差的影響，有些學(xué)者試圖從理論上分析.Luo等[91]從理論上說明模型誤差的表示，并量化模型不確定性的指標，提出SLBO(Stochastic Lower Bound Optimization)，保證算法能單調(diào)提升.Janner等[92]針對環(huán)境模型和采樣可能導(dǎo)致的總偏差C，提出每次更新后，策略的累積回報在模型上的改善若大于C，就能保證在真實環(huán)境中提高策略性能.文章提出分支展開(Branched Rollout)，在軌跡中間采樣一個狀態(tài)后，該狀態(tài)作為分支點，展開模型，訓(xùn)練策略.但由于誤差的存在，只能在模型上展開k步，文章對k值進行理論分析，但是策略單調(diào)改善的理論分析不夠嚴謹.

Lai等[93]提出BMPO(Bidirectional Model-Based Policy Optimization)，建議另外構(gòu)造一個后向動力學(xué)模型，同時使用前向模型和后向模型進行展開.由于使用雙模型展開，當展開軌跡的總步數(shù)相等時，前向模型和后向模型各自展開的步數(shù)均小于僅使用前向模型展開的步數(shù)，因此復(fù)合誤差累積顯著小于完全使用單向模型的情形.作者通過理論分析和實驗驗證說明BMPO比MBPO(Model-Based Policy Optimization)復(fù)合誤差更小，訓(xùn)練效果更優(yōu).

4.2.2 基于模型可微性的端到端學(xué)習(xí)

除了利用模型虛擬展開生成數(shù)據(jù)外，如果模型是神經(jīng)網(wǎng)絡(luò)或其它可微函數(shù)，還可同時利用模型可微的特點直接輔助策略的學(xué)習(xí)，這種方法更進一步利用模型.

Heess等[94]提出SVG(Stochastic Value Gradients)，利用模型的可微性計算值函數(shù)的梯度.該文思想較簡單，利用鏈式法則和模型的可微性直接對值函數(shù)求導(dǎo)，利用梯度上升法優(yōu)化值函數(shù)，學(xué)習(xí)策略.對于隨機性的環(huán)境和策略，可通過重參數(shù)化技巧引入噪聲.SVG利用真實樣本擬合模型，利用模型的可微性優(yōu)化值函數(shù)，在優(yōu)化過程中只利用真實樣本，并未利用模型產(chǎn)生虛擬數(shù)據(jù).這樣做的好處是可緩解模型不準確造成的影響，但同時由于不利用模型產(chǎn)生虛擬數(shù)據(jù)，樣本效率并未得到較高提升.

Clavera等[95]在SVG的基礎(chǔ)上更進一步，采用執(zhí)行者-評論家(Actor-Critic)框架，提出MAAC(Model-Augmented Actor-Critic).除了利用模型的梯度外，采用H步自舉(Bootstrapping)的Q值函數(shù)作為強化學(xué)習(xí)的目標函數(shù)：

同時重放緩存區(qū)中的數(shù)據(jù)既有和真實環(huán)境交互的數(shù)據(jù)也有模型虛擬展開的數(shù)據(jù).超參數(shù)H可使目標函數(shù)在模型的準確性和Q值函數(shù)的準確性之間權(quán)衡.Hafner等[96]提出Dreamer，值函數(shù)估計采用另一種平衡方差和偏差的方式，但Dreamer是圖像輸入，學(xué)習(xí)潛在模型，利用潛在模型的H步展開和可微性.

利用模型的可微性延時反向傳播計算梯度可能會遇到深度學(xué)習(xí)中存在的一類問題——梯度消失和梯度爆炸.MAAC中采用終端Q函數(shù)(TerminalQ-Function)[32]緩解此問題，SVG和Dreamer并未討論這個問題，在實現(xiàn)時使用梯度裁剪的技巧.此外，利用模型可微性還存在容易陷入局部最優(yōu)的問題.

4.3 隱式規(guī)劃

隱式規(guī)劃是一種特殊的基于模型的強化學(xué)習(xí)方法，規(guī)劃過程可嵌入到計算圖中，如圖8所示.典型例子是值迭代網(wǎng)絡(luò)(Value Iteration Network, VIN)[97].

圖8 隱式規(guī)劃過程Fig.8 Process of implicit planning

VIN設(shè)計值迭代模塊，并嵌入CNN中.類似的工作還有UPN(Universal Planning Networks)[98]和QMDP-Net[99].UPN在一個目標導(dǎo)向的策略中嵌入可微分的規(guī)劃模塊.QMDP-Net在一個RNN中嵌入QMDP(QValues of the Underlying MDP)和貝葉斯濾波器，求解POMPD(Partially Observable MDP).

還有一類隱式規(guī)劃是去學(xué)習(xí)規(guī)劃.在一系列任務(wù)中優(yōu)化規(guī)劃器，得到更好的規(guī)劃算法.典型例子是MCTSNets(Monte-Carlo Tree Search Networks)[100].MCTSNets優(yōu)化MCTS過程中的各個步驟，如選擇、回傳和最終的動作輸出.另一個例子是I2As(Imagination-Augmented Agents)[101],設(shè)計想象核，先學(xué)習(xí)動力學(xué)模型，使用此模型想象未來軌跡.想象的信息會被編碼并用于輔助策略的學(xué)習(xí).所有模塊都整合在一個計算圖中.類似的工作還有IBP(Imagination-Based Planner)[102].

隱式規(guī)劃的缺陷是規(guī)劃過程中可能會利用任務(wù)中的無關(guān)特征，同時計算圖通常較大，計算要求較高，優(yōu)化容易不穩(wěn)定.這些缺點導(dǎo)致隱式規(guī)劃目前在機器人領(lǐng)域應(yīng)用較少.

5 在機器人領(lǐng)域的應(yīng)用與挑戰(zhàn)

5.1 在機器人領(lǐng)域的應(yīng)用

現(xiàn)實中的機器人學(xué)習(xí)任務(wù)面臨的問題主要有如下3處.1)高維視覺輸入.類似人通過眼睛觀察世界，視覺也是機器人感知環(huán)境的重要方式，研究者們希望機器人能以圖像為輸入完成操作任務(wù)，不以視覺為輸入的機器人猶如盲人摸象，缺乏實際意義.2)樣本效率問題.機器人學(xué)習(xí)的一個問題是樣本效率低下，無模型的強化學(xué)習(xí)算法需要和環(huán)境交互,通過試錯學(xué)習(xí)，這需要大量樣本，對于機器人操作任務(wù)，采樣通常麻煩且耗時.3)安全問題.機器人在學(xué)習(xí)時需要探索，真實環(huán)境中，無效探索增加機器人的磨損，因此需要好的探索方法.為了安全起見，可以在虛擬環(huán)境中進行訓(xùn)練，再遷移到現(xiàn)實世界中，在虛擬環(huán)境中訓(xùn)練策略往往比直接在現(xiàn)實世界中進行更安全.本節(jié)從圖像輸入、樣本效率、探索和遷移介紹基于模型的強化學(xué)習(xí)在機器人上的應(yīng)用.

高維視覺輸入的難點主要有：1)數(shù)據(jù)維度較高，計算耗費較大；2)視覺輸入往往是真實環(huán)境動力學(xué)模型的非線性函數(shù)，導(dǎo)致圖像動力學(xué)模型的學(xué)習(xí)及基于此模型的規(guī)劃非常困難.基于模型的強化學(xué)習(xí)適合高維視覺輸入的任務(wù).Levine等[4]推導(dǎo)不需要學(xué)習(xí)圖像動力學(xué)模型，而是需要學(xué)習(xí)一個狀態(tài)轉(zhuǎn)移模型p(xt+1|xt,ut) 和一個觀測分布p(ot|xt)的結(jié)論，并且僅在訓(xùn)練策略時需要觀測分布，測試時不再需要，實現(xiàn)端到端的機器人操作，輸入圖像，機器人會輸出動作，實現(xiàn)操作任務(wù).Finn等[38]通過CNN和LSTM學(xué)習(xí)前后兩幀像素流的變換，結(jié)合先前幀中的背景信息，真正學(xué)到基于圖像的環(huán)境動力學(xué)模型，可通過機器人當前狀態(tài)、當前幀和動作預(yù)測下一幀，并結(jié)合規(guī)劃算法，應(yīng)用在真實機器人操作上.潛在動力學(xué)模型結(jié)合表示學(xué)習(xí)將高維圖像觀測嵌入低維潛在空間中，在此低維潛在空間中學(xué)習(xí)動力學(xué)模型及基于模型進行規(guī)劃都相對容易.許多工作[51,103]結(jié)合潛在動力學(xué)模型，都實現(xiàn)高維圖像輸入的真實機器人操作任務(wù).

基于模型的強化學(xué)習(xí)優(yōu)勢是樣本效率較高，因為模型可提供虛擬樣本，因此在機器人控制中，利用機器人與環(huán)境交互得到的真實樣本學(xué)到一個模型，利用模型產(chǎn)生大量的虛擬樣本以學(xué)習(xí)策略，大幅提升樣本效率.但是模型誤差的存在會降低算法性能，因此需要更多的真實樣本以學(xué)習(xí)更精確的模型，提升算法性能，這相當于降低樣本效率.PILCO[30]使用高斯過程表征模型的不確定性，并將不確定性集成到長期決策中，將模型誤差納入算法的考慮范圍中.因此PILCO可提供高質(zhì)量的虛擬樣本，實驗中只需要七八個迭代周期就解決真實小車倒立擺的控制問題，只需約4 min就可學(xué)習(xí)一個復(fù)雜物塊堆疊任務(wù)，同時使用知識遷移時，時間可進一步減少到90 s.E2C(Embed to Control)[50]學(xué)習(xí)一個局部線性的潛在動力學(xué)模型，可結(jié)合iLQR進行規(guī)劃，在倒立擺的實驗中，平均15次實驗就可達到90%的成功率.SOLAR(Stochastic Optimal Control with Latent Re-presentations)[51]利用概率圖模型結(jié)構(gòu)學(xué)習(xí)更精確的潛在動力學(xué)模型，只需要訓(xùn)練2 h就可完成真實環(huán)境中以圖像為輸入的Baxter機器人操作任務(wù).

為了安全起見，在機器人學(xué)習(xí)中，必須限制機器人在真實環(huán)境中的探索.當學(xué)到環(huán)境動力學(xué)模型后，可利用模型輔助探索.Lowrey等[104]學(xué)習(xí)多個值函數(shù)組成內(nèi)在獎勵，在規(guī)劃時用于指導(dǎo)探索，在MuJoCo(Multi-joint Dynamics with Contact)[105]任務(wù)和虛擬的機械臂操控魔方上都有不錯效果.Sekar等[106]在規(guī)劃軌跡中計算內(nèi)在獎勵，使用基于模型的方法最大化規(guī)劃軌跡中的內(nèi)在獎勵，預(yù)測對未來軌跡的好奇心以增加探索.Nair等[103]學(xué)習(xí)一個狀態(tài)的密度模型，并從中選擇目標，訓(xùn)練機器人完成這個想象中的目標，在測試時機器人就有可能泛化完成新的目標.這一思想類似Hindsight Experience Replay[107].

在虛擬環(huán)境中訓(xùn)練機器人再遷移到現(xiàn)實世界，可相對保證機器人的安全，是促進機器人學(xué)習(xí)相關(guān)算法落地應(yīng)用的重要手段.虛擬到現(xiàn)實(Sim to Real)的遷移關(guān)鍵點為虛擬環(huán)境和虛擬到現(xiàn)實的差距(Simulation-to-Reality Gap).目前機器人學(xué)習(xí)領(lǐng)域常用的虛擬環(huán)境主要有MuJoCo[105], Pybullet和Gaze-bo[108].MuJoCo被廣泛用于作為強化學(xué)習(xí)算法性能的測試環(huán)境.MuJoCo和Pybullet與深度學(xué)習(xí)和強化學(xué)習(xí)的相關(guān)庫結(jié)合較好，能提供快速訓(xùn)練.Gazebo被集成到機器人操作系統(tǒng)(Robot Operating System, ROS)中，更適合較復(fù)雜的場景.

而針對虛擬到現(xiàn)實的差距目前主要有兩類方法——域隨機化(Domain Randomization)和域適應(yīng)(Domain Adaption).域隨機化的思想為，不去過多關(guān)注虛擬環(huán)境和現(xiàn)實的差距，而是盡可能隨機化生成虛擬環(huán)境，盡量覆蓋現(xiàn)實環(huán)境.域隨機化的具體做法有2類.1)視覺隨機化，隨機生成的域數(shù)據(jù)涉及工作臺上物體的形狀、數(shù)目、顏色、紋理、位置、工作臺的紋理、攝像機的位置角度、背景的噪聲等，這些不會改變環(huán)境動力學(xué)模型，這方面的機器人學(xué)習(xí)研究主要有Tobin等[109]的工作.2)域隨機化是動力學(xué)隨機化，虛擬環(huán)境中隨機生成的數(shù)據(jù)涉及摩擦系數(shù)、關(guān)節(jié)質(zhì)量、關(guān)節(jié)阻尼系數(shù)、動作時間步長等，這些數(shù)據(jù)的改變會影響環(huán)境動力學(xué)模型，這方面的研究有Peng等[110]和Andrychowicz等[111]的工作.視覺隨機化和動力學(xué)隨機化也可結(jié)合起來，如OpenAI靈巧手操控魔方的工作[3].域適應(yīng)的重點是可獲取少量真實環(huán)境的一些知識，結(jié)合到虛擬環(huán)境的訓(xùn)練中，提高完成真實環(huán)境中任務(wù)的性能.域適應(yīng)在純視覺領(lǐng)域應(yīng)用很多，結(jié)合機器人學(xué)習(xí)也有一些值得關(guān)注的工作[112-113].基于模型的強化學(xué)習(xí)算法可輔助機器人虛擬到現(xiàn)實的遷移.Christiano等[114]學(xué)習(xí)一個逆向動力學(xué)模型，決定真實機器人執(zhí)行什么樣的動作會更容易實現(xiàn)虛擬環(huán)境中下一時刻的狀態(tài)，以此實現(xiàn)遷移.Nagabandi等[115]利用元學(xué)習(xí)(Meta-Lear-ning)訓(xùn)練動力學(xué)模型先驗，再結(jié)合最新數(shù)據(jù)快速學(xué)習(xí)環(huán)境模型，實現(xiàn)快速遷移.

5.2 在機器人領(lǐng)域的挑戰(zhàn)

目前基于模型的強化學(xué)習(xí)也存在一些不足.首先，模型存在不確定性和近似誤差，雖然有很多工作緩解這個問題，然而大多都是針對虛擬環(huán)境，而真實的機器人環(huán)境更復(fù)雜，因此對模型要求更高，如何在真實環(huán)境中減小模型誤差是一個問題.其次,基于模型的強化學(xué)習(xí)的漸進性能不如無模型的強化學(xué)習(xí)，這是限制其應(yīng)用的一個原因，因此利用MBRL的高樣本效率的同時需要設(shè)法達到MFRL的高漸進性能.針對視覺輸入，潛在動力學(xué)模型是一個有效方法，但是通常需要學(xué)習(xí)一個表示，如何結(jié)合先驗知識學(xué)習(xí)一個更好的表示也是未來值得研究的方向.此外，考慮安全問題和采樣效率，機器人學(xué)習(xí)適合先在虛擬環(huán)境中訓(xùn)練再遷移到真實世界，這方面的研究可考慮集成遷移學(xué)習(xí)中域隨機化和域適應(yīng)的方法，是未來研究方向的一個重點.最后，基于模型的強化學(xué)習(xí)通常有更多的超參數(shù)和網(wǎng)絡(luò)模型，可能存在計算量較大、不穩(wěn)定的問題，這個問題可能無法避免，需要在算法研究中盡量設(shè)法減輕.針對這些問題，基于模型的強化學(xué)習(xí)還有很大的研究空間.

6 結(jié) 束語

機器人學(xué)習(xí)作為人工智能領(lǐng)域的研究熱點，受到研究者們的廣泛關(guān)注.強化學(xué)習(xí)由于適合解決決策問題，因此被視為解決機器人學(xué)習(xí)的一種有效方法，而基于模型的強化學(xué)習(xí)(MBRL)存在許多優(yōu)點，更接近人類的學(xué)習(xí)方式，也更適合機器人學(xué)習(xí).本文首先介紹機器人學(xué)習(xí)的形式化.然后，介紹基于模型的強化學(xué)習(xí)算法的基礎(chǔ)理論，詳細論述當前MBRL中模型的學(xué)習(xí)和模型的利用.最后，基于MBRL的優(yōu)點介紹其在機器人學(xué)習(xí)中的應(yīng)用，并展望MBRL未來的研究方向.隨著基于模型的強化學(xué)習(xí)的發(fā)展，其在機器人學(xué)習(xí)中存在的問題會逐一解決，機器人也將更多地出現(xiàn)在工程和生活之中.

猜你喜歡

動力學(xué)機器人狀態(tài)

《空氣動力學(xué)學(xué)報》征稿簡則

空氣動力學(xué)學(xué)報(2022年4期)2022-08-23 06:51:26

狀態(tài)聯(lián)想

小學(xué)生作文(低年級適用)(2019年5期)2019-07-26 00:45:10

生命的另一種狀態(tài)

讀友·少年文學(xué)(清雅版)(2018年12期)2018-04-04 05:16:40

熱圖

家庭百事通(2016年3期)2016-03-14 08:07:17

堅持是成功前的狀態(tài)

山東青年(2016年3期)2016-02-28 14:25:52

機器人來幫你

少兒科學(xué)周刊·少年版(2015年4期)2015-07-07 21:13:44

認識機器人

少兒科學(xué)周刊·少年版(2015年4期)2015-07-07 21:09:31

機器人來啦

少兒科學(xué)周刊·少年版(2015年4期)2015-07-07 21:08:08

認識機器人

少兒科學(xué)周刊·兒童版(2015年4期)2015-06-17 03:37:19

基于隨機-動力學(xué)模型的非均勻推移質(zhì)擴散

浙江大學(xué)學(xué)報(工學(xué)版)(2015年2期)2015-05-30 07:04:53

模式識別與人工智能2022年1期

模式識別與人工智能的其它文章: 2022年度國家自然科學(xué)基金改革舉措; 基于加速自適應(yīng)時空背景感知相關(guān)濾波的目標追蹤算法; 基于自動修補策略的網(wǎng)絡(luò)剪枝; 屬性網(wǎng)絡(luò)中基于變分圖自編碼器的異常節(jié)點檢測方法; 基于語義傳播與前/背景感知的圖像語義分割網(wǎng)絡(luò); 基于度量學(xué)習(xí)的回環(huán)檢測描述子提升算法

感谢您访问我们的网站，您可能还对以下资源感兴趣：温州秤旁教育咨询有限公司

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看网站地图

亚洲中文字幕一区二区三区有码在线看 22中文网久久字幕搞女人的毛片 18禁动态无遮挡网站免费大片18禁欧美潮喷喷水亚洲色图av天堂亚洲三级黄色毛片 18禁裸乳无遮挡免费网站照片国产av不卡久久亚洲国产欧美在线一区老师上课跳d突然被开到最大视频啦啦啦啦在线视频资源国产免费福利视频在线观看午夜视频国产福利国产精品久久电影中文字幕十八禁国产超污无遮挡网站蜜桃久久精品国产亚洲av 十八禁国产超污无遮挡网站成人亚洲欧美一区二区av av国产免费在线观看乱码一卡2卡4卡精品亚洲国产欧美人成日本色播在线视频国产精品一区二区在线观看99 好男人在线观看高清免费视频男的添女的下面高潮视频噜噜噜噜噜久久久久久91 日日摸夜夜添夜夜爱黄色日韩在线色综合亚洲欧美另类图片超碰av人人做人人爽久久国产在视频线在精品淫秽高清视频在线观看尾随美女入室神马国产精品三级电影在线观看国产69精品久久久久777片综合色丁香网色视频www国产美女cb高潮喷水在线观看日韩在线高清观看一区二区三区禁无遮挡网站秋霞在线观看毛片日韩欧美精品免费久久国产又色又爽无遮挡免午夜老司机福利剧场精品国产三级普通话版国产淫语在线视频国产淫语在线视频国产一区有黄有色的免费视频 26uuu在线亚洲综合色少妇猛男粗大的猛烈进出视频 91av网一区二区大又大粗又爽又黄少妇毛片口 .国产精品久久七月丁香在线播放亚洲国产欧美人成国产极品天堂在线久久99热这里只有精品18 午夜福利成人在线免费观看久久久久久久久久久免费av 免费av毛片视频搡老妇女老女人老熟妇 97超碰精品成人国产 a级毛色黄片国产一区二区亚洲精品在线观看边亲边吃奶的免费视频亚洲不卡免费看国产又黄又爽又无遮挡在线国产精品1区2区在线观看. 婷婷六月久久综合丁香欧美变态另类bdsm刘玥国产精品福利在线免费观看国产精品精品国产色婷婷免费观看精品视频网站国产国拍精品亚洲av在线观看免费观看的影片在线观看 1000部很黄的大片简卡轻食公司亚洲人成网站在线播亚洲美女搞黄在线观看五月伊人婷婷丁香亚洲精品乱码久久久久久按摩 22中文网久久字幕 99在线视频只有这里精品首页一边摸一边抽搐一进一小说亚洲久久久久久中文字幕一级爰片在线观看 av天堂中文字幕网 91精品伊人久久大香线蕉国产av不卡久久 99在线人妻在线中文字幕成人午夜高清在线视频欧美三级亚洲精品亚洲欧美精品综合久久99 国模一区二区三区四区视频亚洲精品,欧美精品三级国产精品欧美在线观看欧美人与善性xxx 欧美3d第一页 18禁在线无遮挡免费观看视频美女cb高潮喷水在线观看身体一侧抽搐国产精品久久久久久精品电影国产黄片视频在线免费观看日韩成人伦理影院欧美zozozo另类高清午夜精品一区二区三区好男人视频免费观看在线国产伦一二天堂av在线观看男的添女的下面高潮视频女人被狂操c到高潮赤兔流量卡办理一区二区三区四区激情视频麻豆av噜噜一区二区三区国产伦在线观看视频一区国产精品福利在线免费观看午夜亚洲福利在线播放秋霞在线观看毛片国产黄a三级三级三级人在线免费观看不下载黄p国产国产成人精品一,二区天天躁日日操中文字幕边亲边吃奶的免费视频亚洲性久久影院国产在线一区二区三区精免费不卡的大黄色大毛片视频在线观看熟妇人妻久久中文字幕3abv 99久久九九国产精品国产免费直男gayav资源 91在线精品国自产拍蜜月国产视频首页在线观看成年版毛片免费区亚洲人成网站在线观看播放久久99热这里只有精品18 久久久久久久久久久丰满国产乱人偷精品视频久久久久精品久久久久真实原创 av在线蜜桃九九在线视频观看精品国产真实乱freesex 一个人观看的视频www高清免费观看国产成人精品婷婷人人妻人人澡人人爽人人夜夜干丝袜人妻中文字幕欧美成人精品欧美一级黄精品99又大又爽又粗少妇毛片欧美精品一区二区大全国产av在哪里看 99视频精品全部免费在线亚洲在线自拍视频好男人视频免费观看在线在线播放国产精品三级联通29元200g的流量卡 a级毛色黄片 kizo精华嫩草影院入口久久久色成人亚洲av成人精品一区久久 99热这里只有是精品50 99久久精品国产国产毛片欧美bdsm另类精品国产一区二区三区久久久樱花精品一区二区三区视频在线免费观看性生交大片5 亚洲国产高清在线一区二区三 18禁裸乳无遮挡免费网站照片色吧在线观看欧美zozozo另类 99久久精品一区二区三区精品一区二区三区人妻视频热99在线观看视频国产黄色小视频在线观看久久久久免费精品人妻一区二区中文在线观看免费www的网站国产精品人妻久久久久久国产精品.久久久男女国产视频网站高清毛片免费看国产成人福利小说国产乱人视频国产伦精品一区二区三区视频9 国产精品无大码特级一级黄色大片午夜激情福利司机影院淫秽高清视频在线观看精品不卡国产一区二区三区国产午夜精品一二区理论片级片在线观看亚洲久久久久久中文字幕最近中文字幕2019免费版女人十人毛片免费观看3o分钟午夜亚洲福利在线播放 av在线天堂中文字幕变态另类丝袜制服亚洲av二区三区四区日韩一区二区视频免费看免费看a级黄色片成人二区视频禁无遮挡网站麻豆成人午夜福利视频欧美激情国产日韩精品一区一级黄色大片毛片能在线免费观看的黄片久久精品国产亚洲av涩爱精品不卡国产一区二区三区午夜福利网站1000一区二区三区 videossex国产久久热精品热久久精品国产亚洲av涩爱亚洲精品乱码久久久久久按摩国产成人a区在线观看日本与韩国留学比较熟女人妻精品中文字幕免费无遮挡裸体视频一个人免费在线观看电影午夜激情欧美在线 99久久中文字幕三级久久日本又粗又爽又猛毛片免费看精品一区二区免费观看亚洲欧美一区二区三区国产亚洲高清免费不卡视频联通29元200g的流量卡国产精品久久久久久久久免国产一区欧美日韩成年版毛片免费区日韩av在线大香蕉日韩国内少妇激情av av在线天堂中文字幕桃色一区二区三区在线观看一区二区三区免费毛片 18禁动态无遮挡网站午夜福利高清视频麻豆乱淫一区二区午夜a级毛片国产精品久久久久久久电影在线天堂最新版资源欧美日韩精品成人综合77777 免费人成在线观看视频色亚洲在线自拍视频久久精品久久精品一区二区三区亚洲无线观看免费亚洲国产精品成人综合色男女视频在线观看网站免费色哟哟·www 久久鲁丝午夜福利片搡女人真爽免费视频火全软件欧美+日韩+精品精品一区二区三区视频在线午夜精品在线福利亚洲欧美精品专区久久亚洲av男天堂我的老师免费观看完整版 www.av在线官网国产久久久久久九九精品二区国产欧美变态另类bdsm刘玥最近最新中文字幕大全电影3 女人被狂操c到高潮日本免费在线观看一区欧美激情久久久久久爽电影 99热精品在线国产色噜噜av男人的天堂激情 2022亚洲国产成人精品成人亚洲精品av一区二区搡女人真爽免费视频火全软件熟女人妻精品中文字幕国产在线一区二区三区精 a级毛片免费高清观看在线播放欧美区成人在线视频噜噜噜噜噜久久久久久91 午夜视频国产福利精品酒店卫生间中文字幕免费在线视频6 18禁动态无遮挡网站人体艺术视频欧美日本欧美三级亚洲精品国产成人a∨麻豆精品午夜爱爱视频在线播放成人亚洲精品av一区二区一边摸一边抽搐一进一小说亚洲av成人av av专区在线播放噜噜噜噜噜久久久久久91 欧美一区二区精品小视频在线水蜜桃什么品种好国产伦一二天堂av在线观看女的被弄到高潮叫床怎么办国产亚洲91精品色在线 99在线人妻在线中文字幕国产精品国产三级专区第一集 99久久人妻综合少妇丰满av 女人久久www免费人成看片成人一区二区视频在线观看毛片一级片免费看久久久久菩萨蛮人人尽说江南好唐韦庄狂野欧美白嫩少妇大欣赏 ponron亚洲 av女优亚洲男人天堂狂野欧美白嫩少妇大欣赏欧美激情在线99 晚上一个人看的免费电影美女高潮的动态插逼视频在线观看热99在线观看视频精品久久国产蜜桃成人二区视频深夜a级毛片国产亚洲av片在线观看秒播厂欧美丝袜亚洲另类国产高清三级在线国产亚洲5aaaaa淫片日本免费在线观看一区久久久午夜欧美精品国产成人91sexporn 人妻夜夜爽99麻豆av 身体一侧抽搐一级av片app 黄片无遮挡物在线观看日本五十路高清 99热6这里只有精品亚洲图色成人 97超视频在线观看视频中文字幕亚洲精品专区婷婷色av中文字幕直男gayav资源成年女人看的毛片在线观看精品久久久久久成人av 国产综合懂色 av天堂中文字幕网亚洲怡红院男人天堂免费看日本二区永久免费av网站大全国产精品久久久久久精品电影国产色婷婷99 色哟哟·www 亚洲精华国产精华液的使用体验日本-黄色视频高清免费观看国产精品国产三级国产专区5o 九九热线精品视视频播放 ponron亚洲最近最新中文字幕免费大全7 极品教师在线视频亚洲精华国产精华液的使用体验久久精品久久久久久噜噜老黄看免费成人av毛片亚洲真实伦在线观看精品国产一区二区三区久久久樱花国产不卡一卡二亚洲av成人精品一二三区看黄色毛片网站在线天堂最新版资源熟妇人妻久久中文字幕3abv 日产精品乱码卡一卡2卡三 av线在线观看网站十八禁国产超污无遮挡网站午夜亚洲福利在线播放婷婷色麻豆天堂久久免费av不卡在线播放国产精品国产三级国产专区5o 欧美高清性xxxxhd video 欧美性感艳星久久久精品大字幕三级男女做爰猛烈吃奶摸视频色噜噜av男人的天堂激情成人鲁丝片一二三区免费亚洲精品自拍成人 av在线观看视频网站免费久久久a久久爽久久v久久亚洲国产欧美在线一区中文资源天堂在线亚洲经典国产精华液单亚洲av成人精品一区久久国产熟女欧美一区二区非洲黑人性xxxx精品又粗又长久久精品国产亚洲av涩爱一级二级三级毛片免费看亚洲国产高清在线一区二区三男人舔女人下体高潮全视频精品无人区乱码1区二区国国产精品蜜臀av免费色综合色国产高清日韩中文字幕在线亚洲欧美精品自产自拍午夜免费激情av 成年av动漫网址少妇熟女欧美另类日韩亚洲欧美综合久久国内精品自在自线图片亚洲三级黄色毛片免费在线观看成人毛片一级二级三级毛片免费看国产视频内射国产av码专区亚洲av 免费看美女性在线毛片视频国产精品永久免费网站成人三级黄色视频国产探花极品一区二区国产欧美另类精品又又久久亚洲欧美国产精品女同一区二区软件校园人妻丝袜中文字幕欧美不卡视频在线免费观看国产精品爽爽va在线观看网站中文字幕av成人在线电影我的女老师完整版在线观看免费看日本二区赤兔流量卡办理九九在线视频观看精品国产精品久久久久久久久免又粗又爽又猛毛片免费看免费搜索国产男女视频日韩一区二区视频免费看婷婷六月久久综合丁香 97超碰精品成人国产亚洲一区高清亚洲精品 av在线天堂中文字幕我的女老师完整版在线观看精品人妻熟女av久视频少妇丰满av 精品一区二区三区视频在线夫妻性生交免费视频一级片天美传媒精品一区二区欧美精品一区二区大全乱码一卡2卡4卡精品大香蕉97超碰在线一个人免费在线观看电影精品久久久久久成人av 欧美性猛交黑人性爽久久精品夜夜夜夜夜久久蜜豆深爱激情五月婷婷 99在线人妻在线中文字幕亚洲av电影不卡..在线观看 av专区在线播放亚洲精品日韩av片在线观看亚洲国产最新在线播放 av播播在线观看一区 18+在线观看网站欧美xxxx性猛交bbbb 亚洲国产精品国产精品亚洲av电影在线观看一区二区三区永久免费av网站大全亚洲人成网站在线播亚洲婷婷狠狠爱综合网久久亚洲精品不卡亚洲精品日韩av片在线观看 91精品伊人久久大香线蕉亚洲,欧美,日韩国产伦一二天堂av在线观看日韩精品青青久久久久久一区二区三区乱码不卡18 成人午夜精彩视频在线观看午夜福利网站1000一区二区三区免费观看精品视频网站久久久久久大精品日韩精品有码人妻一区亚洲人成网站在线播在线观看美女被高潮喷水网站高清日韩中文字幕在线老司机福利观看丰满人妻一区二区三区视频av 老师上课跳d突然被开到最大视频日韩亚洲欧美综合久久99热这里只有精品18 精品一区二区免费观看亚洲精品乱码久久久v下载方式国产亚洲精品久久久com 欧美另类亚洲清纯唯美男女啪啪激烈高潮av片 97热精品久久久久久大话2 男鬼变身卡一本一本综合久久 a级毛片免费高清观看在线播放亚洲av免费在线观看久久亚洲国产成人精品v 美女xxoo啪啪120秒动态图中文天堂在线官网色5月婷婷丁香 91精品一卡2卡3卡4卡自拍偷自拍亚洲精品老妇色吧在线观看日韩三级伦理在线观看国产黄色视频一区二区在线观看久久久久性生活片天堂√8在线中文国产成人精品久久久久久亚洲av日韩在线播放色综合站精品国产国产免费福利视频在线观看精品欧美国产一区二区三一个人免费在线观看电影 av卡一久久亚洲av熟女最近手机中文字幕大全免费av不卡在线播放免费观看的影片在线观看亚洲人成网站高清观看中文精品一卡2卡3卡4更新亚洲18禁久久av 夜夜看夜夜爽夜夜摸 18禁动态无遮挡网站亚洲最大成人av 精品一区二区免费观看国产在视频线在精品日日摸夜夜添夜夜爱婷婷色麻豆天堂久久你懂的网址亚洲精品在线观看 97在线视频观看国产精品综合久久久久久久免费国语自产精品视频在线第100页久久精品国产亚洲网站久久久久久九九精品二区国产欧美不卡视频在线免费观看纵有疾风起免费观看全集完整版国产精品爽爽va在线观看网站草草在线视频免费看真实男女啪啪啪动态图午夜a级毛片久久久亚洲精品成人影院国产精品乱码一区二三区的特点最后的刺客免费高清国语热99re8久久精品国产欧美极品一区二区三区四区高清在线视频一区二区三区成人综合一区亚洲 .国产精品久久国产精品蜜桃在线观看国产片特级美女逼逼视频成人二区视频久99久视频精品免费国产高清不卡午夜福利亚洲内射少妇av 你懂的网址亚洲精品在线观看国产亚洲5aaaaa淫片色噜噜av男人的天堂激情欧美日韩精品成人综合77777 免费av观看视频一区二区三区四区激情视频国产精品久久视频播放亚洲天堂国产精品一区在线亚洲在线观看片国产精品无大码听说在线观看完整版免费高清亚洲国产日韩欧美精品在线观看欧美成人一区二区免费高清观看 22中文网久久字幕亚洲五月天丁香 91午夜精品亚洲一区二区三区日韩大片免费观看网站 a级毛片免费高清观看在线播放 18+在线观看网站亚洲欧美中文字幕日韩二区国产色爽女视频免费观看搡女人真爽免费视频火全软件韩国高清视频一区二区三区午夜爱爱视频在线播放日日干狠狠操夜夜爽国产高清三级在线亚洲在久久综合麻豆乱淫一区二区天堂中文最新版在线下载精品人妻一区二区三区麻豆一级爰片在线观看国内揄拍国产精品人妻在线免费人成在线观看视频色精品人妻熟女av久视频欧美成人午夜免费资源乱码一卡2卡4卡精品亚洲精品乱码久久久v下载方式在线播放无遮挡少妇猛男粗大的猛烈进出视频色吧在线观看国产精品一区二区在线观看99 亚洲美女视频黄频亚洲欧美日韩高清专用中文乱码字字幕精品一区二区三区一级毛片电影观看秋霞伦理黄片国产不卡一卡二国产亚洲91精品色在线久久国产乱子免费精品麻豆久久精品国产亚洲av 亚洲av福利一区成人性生交大片免费视频hd 两个人的视频大全免费全区人妻精品视频毛片一级片免费看久久久久久久久久久久久久久免费av 国产免费一级a男人的天堂美女内射精品一级片tv 国产精品一及搡老妇女老女人老熟妇 99久久精品热视频热99re8久久精品国产国产亚洲一区二区精品国产美女午夜福利看片在线看免费视频亚洲精品aⅴ在线观看国产一区二区在线观看日韩国产精品国产高清国产av 简卡轻食公司七月丁香在线播放午夜激情福利司机影院 a级毛色黄片日本猛色少妇xxxxx猛交久久国产精华一区二区三区亚洲aⅴ乱码一区二区在线播放国产亚洲精品av在线欧美最新免费一区二区三区国产v大片淫在线免费观看 97在线视频观看国产精品蜜桃在线观看欧美zozozo另类午夜老司机福利剧场久久6这里有精品国产亚洲精品av在线中文资源天堂在线欧美bdsm另类国产精品熟女久久久久浪国产一区二区在线av高清观看高清在线视频一区二区三区国内精品宾馆在线特大巨黑吊av在线直播男女国产视频网站男插女下体视频免费在线播放啦啦啦观看免费观看视频高清少妇丰满av 国产激情偷乱视频一区二区建设人人有责人人尽责人人享有的亚洲av成人精品一区久久五月玫瑰六月丁香亚洲四区av 男人舔女人下体高潮全视频国产精品一区二区三区四区免费观看国产伦理片在线播放av一区身体一侧抽搐亚洲国产色片午夜a级毛片 videos熟女内射少妇的逼水好多成人国产麻豆网乱系列少妇在线播放男人狂女人下面高潮的视频婷婷色麻豆天堂久久美女xxoo啪啪120秒动态图 videos熟女内射久久精品熟女亚洲av麻豆精品精品久久久久久成人av 91久久精品国产一区二区成人麻豆一二三区av精品十八禁国产超污无遮挡网站少妇的逼好多水尤物成人国产欧美一区二区三区搞女人的毛片日韩av在线大香蕉舔av片在线久久精品国产亚洲av天美人人妻人人澡人人爽人人夜夜国产精品国产三级国产专区5o 国产精品久久久久久精品电影亚洲av电影在线观看一区二区三区亚洲综合色惰成年免费大片在线观看 av卡一久久亚洲国产精品合色在线国产av一区在线观看免费免费观看a级毛片全部你懂的网址亚洲精品在线观看国产精品电影一区二区三区我要看日韩黄色一级片日韩精品有码人妻一区午夜福利在线在线亚洲av成人精品一二三区成人综合一区亚洲国产精品99久久久久久久久久久精品综合一区二区三区少妇高潮的动态图看免费成人av毛片 97超碰精品成人国产午夜精品国产一区二区电影在线免费观看的www视频欧美极品一区二区三区四区九九在线视频观看精品亚洲图色成人国产美女午夜福利 97在线视频观看亚洲婷婷狠狠爱综合网亚洲自拍偷在线中国国产av一级久久久精品欧美日韩精品国产在视频线在精品国产亚洲av嫩草精品影院亚洲精品久久久久久婷婷小说欧美一区二区亚洲超碰av人人做人人爽久久日韩国内少妇激情av 欧美变态另类bdsm刘玥亚洲最大成人av 狂野欧美白嫩少妇大欣赏亚洲国产精品专区欧美免费一级毛片在线播放高清视频美女被艹到高潮喷水动态国产亚洲午夜精品一区二区久久国产精品久久久久久精品电影小说国产精品野战在线观看亚洲欧美清纯卡通最近2019中文字幕mv第一页日韩欧美国产在线观看中国国产av一级 99在线视频只有这里精品首页乱码一卡2卡4卡精品午夜激情欧美在线久久精品久久久久久久性亚洲成人中文字幕在线播放色综合站精品国产久久久久久伊人网av 国产老妇女一区中文字幕av成人在线电影插阴视频在线观看视频男人舔女人下体高潮全视频 2021少妇久久久久久久久久久 99热6这里只有精品在线免费观看的www视频国产精品国产三级专区第一集色网站视频免费爱豆传媒免费全集在线观看婷婷色av中文字幕 99热网站在线观看午夜av观看不卡成人毛片60女人毛片免费亚洲国产av影院在线观看国产精品秋霞免费鲁丝片咕卡用的链子免费看av在线观看网站欧美精品一区二区大全免费黄网站久久成人精品日韩,欧美,国产一区二区三区久久久久久久久久久免费av 熟女电影av网午夜精品国产一区二区电影久久久久久久亚洲中文字幕女性被躁到高潮视频又大又黄又爽视频免费夜夜骑夜夜射夜夜干国产精品无大码 18+在线观看网站男女边吃奶边做爰视频亚洲图色成人免费观看无遮挡的男女亚洲欧美色中文字幕在线 97在线人人人人妻亚洲av电影在线观看一区二区三区亚洲人成网站在线观看播放考比视频在线观看亚洲五月色婷婷综合制服诱惑二区亚洲精品美女久久av网站中国美白少妇内射xxxbb 亚洲av综合色区一区少妇人妻久久综合中文我要看黄色一级片免费的日本vs欧美在线观看视频亚洲精品日韩在线中文字幕久久精品国产a三级三级三级 tube8黄色片一级黄片播放器 av女优亚洲男人天堂伦理电影大哥的女人热99国产精品久久久久久7 男男h啪啪无遮挡国国产精品蜜臀av免费性色avwww在线观看国产乱人偷精品视频亚洲av.av天堂看十八女毛片水多多多免费大片18禁亚洲天堂av无毛 av黄色大香蕉亚洲精品国产av蜜桃国产极品天堂在线亚洲精品久久成人aⅴ小说国产色爽女视频免费观看 99re6热这里在线精品视频又黄又爽又刺激的免费视频. 在线观看人妻少妇 videossex国产免费在线观看完整版高清中文字幕人妻丝袜制服在线观看一区二区三区激情亚洲精品第二区麻豆精品久久久久久蜜桃大话2 男鬼变身卡午夜免费观看性视频中文乱码字字幕精品一区二区三区亚洲精品av麻豆狂野国产乱人偷精品视频男女下面插进去视频免费观看精品国产一区二区三区四区第35 最新的欧美精品一区二区亚洲精品视频女赤兔流量卡办理侵犯人妻中文字幕一二三四区国产成人精品婷婷久久久久久久大尺度免费视频两个人看的免费小视频男女高潮啪啪啪动态图秋霞伦理黄片亚洲欧洲国产日韩 90打野战视频偷拍视频久久这里有精品视频免费国产免费视频播放在线视频亚洲精品色激情综合 a 毛片基地两个人看的免费小视频国产成人av激情在线播放蜜臀久久99精品久久宅男老女人水多毛片亚洲精品av麻豆狂野 97在线人人人人妻 91午夜精品亚洲一区二区三区 97人妻天天添夜夜摸自线自在国产av 国产成人免费无遮挡视频黄色一级大片看看午夜久久久在线观看欧美国产精品va在线观看不卡国产国语露脸激情在线看国产精品不卡视频一区二区久久精品国产自在天天线免费大片黄手机在线观看婷婷色av中文字幕一二三四在线观看免费中文在日本91视频免费播放国产黄色视频一区二区在线观看国产精品麻豆人妻色哟哟久久 1024视频免费在线观看色婷婷久久久亚洲欧美婷婷色综合www 成人亚洲欧美一区二区av 另类亚洲欧美激情 av福利片在线 90打野战视频偷拍视频伦精品一区二区三区 99热国产这里只有精品6 黑丝袜美女国产一区国产男人的电影天堂91 精品久久久久久电影网多毛熟女@视频在线观看国产h片丝袜喷水一区国产亚洲精品久久久com 国产精品欧美亚洲77777 免费看光身美女亚洲欧美中文字幕日韩二区国产成人91sexporn 久久亚洲国产成人精品v 欧美激情国产日韩精品一区成人二区视频有码亚洲区边亲边吃奶的免费视频午夜日本视频在线高清不卡的av网站国产高清三级在线 18在线观看网站 av女优亚洲男人天堂国内精品宾馆在线美女视频免费永久观看网站亚洲精品乱久久久久久日韩av免费高清视频精品少妇内射三级免费黄网站久久成人精品热99国产精品久久久久久7 免费人妻精品一区二区三区视频男女国产视频网站国产日韩欧美视频二区中文乱码字字幕精品一区二区三区日日摸夜夜添夜夜爱精品卡一卡二卡四卡免费日韩伦理黄色片国产精品熟女久久久久浪亚洲综合精品二区男人添女人高潮全过程视频 9191精品国产免费久久国产男人的电影天堂91 国产永久视频网站国产成人91sexporn 日韩,欧美,国产一区二区三区中文字幕另类日韩欧美亚洲嫩草国产精品久久久久久av不卡欧美日本中文国产一区发布国产无遮挡羞羞视频在线观看两个人免费观看高清视频在线观看www视频免费大香蕉97超碰在线 99热这里只有是精品在线观看日韩人妻精品一区2区三区欧美人与性动交α欧美软件成人毛片a级毛片在线播放久久韩国三级中文字幕色网站视频免费少妇被粗大猛烈的视频精品少妇黑人巨大在线播放桃花免费在线播放亚洲av男天堂久热这里只有精品99 在线 av 中文字幕国产免费福利视频在线观看中文字幕人妻熟女乱码国产伦理片在线播放av一区久久国产精品大桥未久av 国产男女超爽视频在线观看 √禁漫天堂资源中文www 熟女人妻精品中文字幕看非洲黑人一级黄片久久久精品94久久精品男的添女的下面高潮视频色吧在线观看日韩欧美精品免费久久制服诱惑二区国精品久久久久久国模美亚洲精华国产精华液的使用体验满18在线观看网站婷婷色av中文字幕欧美亚洲国产日韩一国产av精品麻豆在线观看免费视频网站a站日韩av不卡免费在线播放女性被躁到高潮视频一区二区三区精品91 丝袜人妻中文字幕国产男人的电影天堂91 最新中文字幕久久久久亚洲色图男人天堂中文字幕久久青草综合色国产欧美日韩一区二区三区在线 26uuu在线亚洲综合色国产精品一区www在线观看美女大奶头黄色视频天堂中文最新版在线下载国产一区亚洲一区在线观看男女午夜视频在线观看国产精品免费大片亚洲,一卡二卡三卡免费黄色在线免费观看亚洲国产日韩一区二区久久久精品区二区三区 av在线app专区 99热全是精品在线免费观看不下载黄p国产少妇被粗大的猛进出69影院 9色porny在线观看 kizo精华成人亚洲欧美一区二区av 一区在线观看完整版精品一品国产午夜福利视频亚洲精品乱久久久久久波多野结衣一区麻豆国产精品偷伦视频观看了一本一本久久a久久精品综合妖精国产伦在线观看视频一区亚洲av日韩在线播放 a级片在线免费高清观看视频色婷婷av一区二区三区视频精品99又大又爽又粗少妇毛片波多野结衣一区麻豆熟女av电影日本免费在线观看一区成人影院久久国产精品蜜桃在线观看中文字幕精品免费在线观看视频久久这里只有精品19 av播播在线观看一区久久99一区二区三区性高湖久久久久久久久免费观看 2018国产大陆天天弄谢成人午夜精彩视频在线观看搡老乐熟女国产国产老妇伦熟女老妇高清亚洲精品日韩在线中文字幕水蜜桃什么品种好亚洲国产欧美日韩在线播放日韩制服骚丝袜av 久久免费观看电影 1024视频免费在线观看久久久a久久爽久久v久久日韩一区二区三区影片晚上一个人看的免费电影欧美精品人与动牲交sv欧美 18禁在线无遮挡免费观看视频男女无遮挡免费网站观看啦啦啦中文免费视频观看日本免费看av在线观看网站少妇人妻视频 av在线app专区免费日韩欧美在线观看性高湖久久久久久久久免费观看搡女人真爽免费视频火全软件少妇猛男粗大的猛烈进出视频久久av网站午夜日本视频在线人人妻人人爽人人添夜夜欢视频男女下面插进去视频免费观看日本免费在线观看一区国产亚洲精品第一综合不卡日本91视频免费播放欧美3d第一页国产精品国产av在线观看自拍欧美九色日韩亚洲蝌蚪91 久久久精品94久久精品久久99热6这里只有精品日本黄色日本黄色录像最近的中文字幕免费完整午夜影院在线不卡国产免费一区二区三区四区乱码免费黄网站久久成人精品日韩一本色道免费dvd 国产精品99久久99久久久不卡丝袜在线中文字幕久久av网站精品一区二区三卡丝袜脚勾引网站精品卡一卡二卡四卡免费 99久久人妻综合国产日韩欧美视频二区亚洲精品成人av观看孕妇视频在线观看一区二区三区亚洲精品久久午夜乱码狠狠精品人妻久久久久久综合国产精品99久久99久久久不卡一级a做视频免费观看欧美激情极品国产一区二区三区晚上一个人看的免费电影国产成人91sexporn 亚洲精品456在线播放app 午夜影院在线不卡 av.在线天堂国产又色又爽无遮挡免国产精品国产三级国产av玫瑰宅男免费午夜亚洲av福利一区国产精品偷伦视频观看了国产av一区二区精品久久 18禁观看日本亚洲丝袜综合中文字幕 91久久精品国产一区二区三区丰满饥渴人妻一区二区三 999精品在线视频免费观看性生交大片5 av黄色大香蕉少妇精品久久久久久久国产免费视频播放在线视频欧美精品亚洲一区二区久久这里只有精品19 国产一区二区激情短视频黑人欧美特级aaaaaa片久久久久久久大尺度免费视频国产在线免费精品飞空精品影院首页国产精品1 老女人水多毛片亚洲精品久久久久久婷婷小说在线观看免费日韩欧美大片最近的中文字幕免费完整日韩视频在线欧美美女内射精品一级片tv 制服丝袜香蕉在线免费大片黄手机在线观看免费不卡的大黄色大毛片视频在线观看久久女婷五月综合色啪小说精品人妻熟女毛片av久久网站天天操日日干夜夜撸欧美精品av麻豆av 18禁国产床啪视频网站夫妻性生交免费视频一级片妹子高潮喷水视频成人国产麻豆网 av播播在线观看一区在线观看人妻少妇免费大片18禁狠狠婷婷综合久久久久久88av 91精品三级在线观看亚洲欧美中文字幕日韩二区亚洲丝袜综合中文字幕亚洲四区av 人妻人人澡人人爽人人亚洲一码二码三码区别大吗国产av国产精品国产五月开心婷婷网午夜福利,免费看成人二区视频 av一本久久久久啦啦啦在线观看免费高清www 日日爽夜夜爽网站激情视频va一区二区三区美女内射精品一级片tv 五月开心婷婷网在线亚洲精品国产二区图片欧美欧美xxⅹ黑人日本猛色少妇xxxxx猛交久久 91精品伊人久久大香线蕉大香蕉97超碰在线免费高清在线观看日韩欧美国产精品一级二级三级丝袜脚勾引网站 www日本在线高清视频伦精品一区二区三区国产精品久久久久成人av 午夜影院在线不卡精品卡一卡二卡四卡免费国产日韩欧美在线精品亚洲国产精品专区欧美国产午夜精品一二区理论片肉色欧美久久久久久久蜜桃美女主播在线视频 av在线老鸭窝女人被躁到高潮嗷嗷叫费观黑丝袜美女国产一区超碰97精品在线观看国产男女内射视频欧美日本中文国产一区发布亚洲性久久影院欧美成人午夜免费资源大码成人一级视频国产精品人妻久久久影院国产成人午夜福利电影在线观看日韩亚洲欧美在线看免费成人av毛片色网站视频免费九九爱精品视频在线观看 99国产综合亚洲精品黄色怎么调成土黄色亚洲欧美成人精品一区二区五月开心婷婷网五月伊人婷婷丁香大香蕉久久网国产白丝娇喘喷水9色精品人妻少妇偷人精品九色国产免费视频播放在线视频啦啦啦视频在线资源免费观看桃花免费在线播放亚洲第一区二区三区不卡九色成人免费人妻av 国产精品一区www在线观看国产淫语在线视频人妻一区二区av 国产欧美日韩一区二区三区在线免费看光身美女精品一区二区三区视频在线国产成人精品在线电影欧美人与性动交α欧美软件日韩在线高清观看一区二区三区国产成人精品在线电影我要看黄色一级片免费的国产69精品久久久久777片在线亚洲精品国产二区图片欧美亚洲欧美一区二区三区国产亚洲精华国产精华液的使用体验久久精品国产鲁丝片午夜精品一级片'在线观看视频欧美激情高清一区二区三区 91精品国产国语对白视频久久久久久久久久久久大奶天堂中文最新版在线下载日韩成人av中文字幕在线观看 av免费在线看不卡 freevideosex欧美久久狼人影院国产一区亚洲一区在线观看在线观看免费日韩欧美大片亚洲av福利一区久热这里只有精品99 一级片'在线观看视频女的被弄到高潮叫床怎么办久久亚洲国产成人精品v 欧美bdsm另类宅男免费午夜国产一区亚洲一区在线观看 a级毛色黄片欧美日韩视频精品一区男女下面插进去视频免费观看国产精品女同一区二区软件午夜激情av网站国产极品天堂在线久久精品国产a三级三级三级一本一本久久a久久精品综合妖精国产伦在线观看视频一区高清视频免费观看一区二区国产片内射在线十分钟在线观看高清视频www 国产精品国产三级专区第一集日韩,欧美,国产一区二区三区欧美激情国产日韩精品一区母亲3免费完整高清在线观看男女啪啪激烈高潮av片 av天堂久久9 91国产中文字幕 80岁老熟妇乱子伦牲交日本av手机在线免费观看 90打野战视频偷拍视频国产深夜福利视频在线观看亚洲欧美色中文字幕在线一本一本久久a久久精品综合妖精国产伦在线观看视频一区性色av一级视频中文字幕在线观看超色免费av 宅男免费午夜女人被躁到高潮嗷嗷叫费观国产免费又黄又爽又色国产一区精品欧美国产精品va在线观看不卡亚洲在久久综合亚洲第一av免费看女人精品久久久久毛片一区二区三区四区激情视频一边亲一边摸免费视频午夜激情av网站久久99蜜桃精品久久日韩成人av中文字幕在线观看一区二区三区四区激情视频国产成人a∨麻豆精品国产亚洲一区二区精品国产日韩欧美在线精品 97超碰精品成人国产建设人人有责人人尽责人人享有的秋霞在线观看毛片国产精品一国产av 国产片特级美女逼逼视频国产精品久久久久久精品古装美女国产高潮福利片在线看 99热这里只有是精品在线观看国产精品久久久久久精品电影小说国产有黄有色有爽视频亚洲精品第二区日韩在线高清观看一区二区三区国产精品蜜桃在线观看乱码一卡2卡4卡精品亚洲精品自拍成人成年人午夜在线观看视频亚洲精品第二区欧美人与性动交α欧美精品济南到免费久久久久久久精品成人欧美视频亚洲精品第二区日日爽夜夜爽网站欧美少妇被猛烈插入视频丰满乱子伦码专区男女午夜视频在线观看 97人妻天天添夜夜摸成人无遮挡网站一边摸一边做爽爽视频免费 91国产中文字幕亚洲色图综合在线观看满18在线观看网站国产欧美另类精品又又久久亚洲欧美久久久精品区二区三区久久久久精品久久久久真实原创久久人人爽av亚洲精品天堂国产免费福利视频在线观看嫩草影院入口国产在线一区二区三区精男女边摸边吃奶国产亚洲精品第一综合不卡少妇在线观看黄色视频在线播放观看不卡大片电影免费在线观看免费你懂的网址亚洲精品在线观看一级爰片在线观看国产成人精品无人区高清视频免费观看一区二区 av黄色大香蕉国产精品人妻久久久影院亚洲精品一二三男女下面插进去视频免费观看天天影视国产精品久久精品久久久久久噜噜老黄插逼视频在线观看精品午夜福利在线看成年人免费黄色播放视频 videosex国产 av线在线观看网站成人亚洲欧美一区二区av 久久婷婷青草少妇的逼好多水 18禁动态无遮挡网站日韩不卡一区二区三区视频在线两个人看的免费小视频热99久久久久精品小说推荐精品国产国语对白av 女人被躁到高潮嗷嗷叫费观少妇人妻久久综合中文 av电影中文网址国产一区二区在线观看av 51国产日韩欧美亚洲精品一区蜜桃国产淫语在线视频亚洲经典国产精华液单亚洲欧洲国产日韩国产成人a∨麻豆精品欧美日韩av久久黄色一级大片看看午夜av观看不卡国内精品宾馆在线夫妻性生交免费视频一级片乱人伦中国视频亚洲,一卡二卡三卡日本wwww免费看又黄又粗又硬又大视频另类精品久久黑人高潮一二区久久精品国产亚洲av天美老司机亚洲免费影院亚洲色图综合在线观看欧美日韩视频精品一区久热这里只有精品99 国精品久久久久久国模美亚洲欧美精品自产自拍热re99久久国产66热成人亚洲精品一区在线观看熟妇人妻不卡中文字幕亚洲三级黄色毛片视频在线观看一区二区三区国产不卡av网站在线观看狠狠精品人妻久久久久久综合丰满饥渴人妻一区二区三亚洲精品久久久久久婷婷小说在线观看一区二区三区激情久久久久久人人人人人亚洲国产成人一精品久久久亚洲精品第二区 av.在线天堂久久青草综合色男女无遮挡免费网站观看 99国产综合亚洲精品 av在线老鸭窝亚洲精品456在线播放app 美女大奶头黄色视频亚洲av欧美aⅴ国产亚洲精品美女久久av网站久久久国产欧美日韩av 亚洲色图综合在线观看 999精品在线视频最近最新中文字幕大全免费视频欧美日韩精品国产亚洲国产欧美在线一区欧美精品人与动牲交sv欧美一二三四在线观看免费中文在亚洲精品国产av成人精品午夜av观看不卡国产成人午夜福利电影在线观看亚洲精品国产av成人精品亚洲四区av 久久婷婷青草 18在线观看网站免费久久久久久久精品成人欧美视频日韩一区二区视频免费看国产激情久久老熟女免费观看a级毛片全部哪个播放器可以免费观看大片性色av一级 videosex国产亚洲av中文av极速乱色网站视频免费国产国语露脸激情在线看亚洲三级黄色毛片 h视频一区二区三区欧美日韩亚洲高清精品亚洲国产色片日韩精品有码人妻一区咕卡用的链子久久人人爽av亚洲精品天堂 9色porny在线观看巨乳人妻的诱惑在线观看 99热全是精品不卡视频在线观看欧美国产欧美日韩一区二区三区在线国产麻豆69 免费看av在线观看网站久久狼人影院视频在线观看一区二区三区国产一区二区在线观看av 制服诱惑二区极品人妻少妇av视频国产伦理片在线播放av一区亚洲欧美成人综合另类久久久欧美国产精品一级二级三级青春草亚洲视频在线观看一区二区三区四区激情视频 18禁在线无遮挡免费观看视频日韩中文字幕视频在线看片蜜桃在线观看.. 日韩精品免费视频一区二区三区精品一区在线观看国产久久久久国产网址大香蕉久久成人网国产精品国产三级专区第一集人人妻人人澡人人看久久久久精品久久久久真实原创欧美精品一区二区免费开放午夜激情久久久久久久精品少妇黑人巨大在线播放中文字幕精品免费在线观看视频一区二区三区四区激情视频亚洲成人av在线免费 99re6热这里在线精品视频国产成人91sexporn 91成人精品电影午夜影院在线不卡建设人人有责人人尽责人人享有的亚洲第一av免费看亚洲,欧美,日韩日韩中字成人亚洲av免费高清在线观看国产精品人妻久久久久久大码成人一级视频伦理电影免费视频久久久精品区二区三区看免费av毛片日本免费在线观看一区在线精品无人区一区二区三亚洲综合色网址婷婷成人精品国产国产又色又爽无遮挡免最近最新中文字幕大全免费视频中文乱码字字幕精品一区二区三区天美传媒精品一区二区大陆偷拍与自拍午夜福利视频在线观看免费亚洲精华国产精华液的使用体验少妇人妻视频韩国高清视频一区二区三区久久久久精品性色欧美精品一区二区大全国产1区2区3区精品亚洲av免费高清在线观看亚洲av免费高清在线观看日日爽夜夜爽网站亚洲人成网站在线观看播放 av国产精品久久久久影院 2021少妇久久久久久久久久久 av网站免费在线观看视频日本黄大片高清人妻系列视频国产免费又黄又爽又色丰满少妇做爰视频久久99热6这里只有精品国产欧美另类精品又又久久亚洲欧美人人澡人人妻人久久久久精品性色免费黄网站久久成人精品一级,二级,三级黄色视频国产乱人偷精品视频国产精品女同一区二区软件男人添女人高潮全过程视频午夜激情久久久久久久一区二区三区精品91 涩涩av久久男人的天堂午夜老司机福利剧场国产激情久久老熟女狂野欧美激情性xxxx在线观看国产69精品久久久久777片男女高潮啪啪啪动态图国产精品秋霞免费鲁丝片美女国产视频在线观看 91成人精品电影欧美亚洲日本最大视频资源中文天堂在线官网男女国产视频网站亚洲中文av在线午夜视频国产福利狠狠婷婷综合久久久久久88av 国产精品一国产av 国产精品一二三区在线看中文字幕精品免费在线观看视频一区二区三区四区激情视频 51国产日韩欧美日本欧美国产在线视频 av在线播放精品 av不卡在线播放亚洲av在线观看美女高潮在现免费观看毛片有码亚洲区日韩一区二区三区影片国产亚洲一区二区精品人妻少妇偷人精品九色成人手机av 亚洲第一区二区三区不卡夫妻午夜视频 www.熟女人妻精品国产国产成人91sexporn 成人毛片a级毛片在线播放亚洲av福利一区亚洲国产精品一区二区三区在线自拍欧美九色日韩亚洲蝌蚪91 欧美丝袜亚洲另类久久久久久人人人人人麻豆乱淫一区二区亚洲精品美女久久久久99蜜臀婷婷色综合www 91aial.com中文字幕在线观看男女下面插进去视频免费观看久久免费观看电影欧美精品一区二区免费开放亚洲av在线观看美女高潮日本猛色少妇xxxxx猛交久久少妇人妻久久综合中文少妇精品久久久久久久国产爽快片一区二区三区中文字幕人妻熟女乱码精品一品国产午夜福利视频极品少妇高潮喷水抽搐涩涩av久久男人的天堂欧美日韩视频精品一区中文字幕人妻丝袜制服国产精品久久久av美女十八一级a做视频免费观看亚洲综合色惰 97人妻天天添夜夜摸久久精品aⅴ一区二区三区四区亚洲,欧美精品. 国产一区二区三区综合在线观看免费人成在线观看视频色多毛熟女@视频久久久久人妻精品一区果冻亚洲欧美成人精品一区二区国产一区二区在线观看av 国产一区精品亚洲欧美清纯卡通 97精品久久久久久久久久精品国产精品国内视频免费观看在线日韩午夜福利在线观看免费完整高清在天美传媒精品一区二区久久久久网色 www.av在线官网国产我的女老师完整版在线观看成年人午夜在线观看视频婷婷色麻豆天堂久久欧美日韩精品国产性色avwww在线观看免费黄网站久久成人精品日韩精品免费视频一区二区三区成年美女黄网站色视频大全免费久久精品久久久久久噜噜老黄男男h啪啪无遮挡日韩欧美精品免费久久亚洲久久久国产精品日日摸夜夜添夜夜爱亚洲综合色网址 18禁观看日本午夜福利影视在线免费观看一区二区三区四区激情视频成人漫画全彩无遮挡欧美精品一区二区大全久久韩国三级中文字幕亚洲国产毛片av蜜桃av 日韩在线高清观看一区二区三区久热这里只有精品99 日日爽夜夜爽网站中文字幕最新亚洲高清亚洲精品美女久久久久99蜜臀久久人人爽人人爽人人片va 精品人妻偷拍中文字幕中文字幕免费在线视频6 色94色欧美一区二区亚洲四区av 丝袜脚勾引网站国精品久久久久久国模美久久久精品免费免费高清 freevideosex欧美少妇被粗大猛烈的视频国产成人午夜福利电影在线观看十八禁高潮呻吟视频国产一区亚洲一区在线观看久久久国产一区二区久久久久久久久久久久大奶国产午夜精品一二区理论片一本色道久久久久久精品综合超色免费av 男人添女人高潮全过程视频成年动漫av网址中文字幕人妻熟女乱码在现免费观看毛片婷婷色av中文字幕精品熟女少妇av免费看另类精品久久伊人久久国产一区二区免费久久久久久久精品成人欧美视频国产片内射在线精品久久国产蜜桃久久久精品94久久精品天堂中文最新版在线下载韩国av在线不卡 99热这里只有是精品在线观看日本黄色日本黄色录像 9热在线视频观看99 啦啦啦在线观看免费高清www 欧美成人午夜精品在线亚洲精品国产二区图片欧美日本黄色日本黄色录像 80岁老熟妇乱子伦牲交色婷婷av一区二区三区视频日本av手机在线免费观看成人影院久久国产综合精华液一本久久精品欧美日韩av久久麻豆精品久久久久久蜜桃久久久久久伊人网av 免费高清在线观看视频在线观看亚洲高清免费不卡视频 18禁裸乳无遮挡动漫免费视频热99国产精品久久久久久7 一级毛片黄色毛片免费观看视频搡老乐熟女国产亚洲欧美日韩卡通动漫高清av免费在线又粗又硬又长又爽又黄的视频激情视频va一区二区三区欧美日韩视频高清一区二区三区二久久青草综合色久久久久国产精品人妻一区二区女性生殖器流出的白浆国产精品女同一区二区软件亚洲第一区二区三区不卡国产精品国产三级国产av玫瑰欧美人与性动交α欧美软件久久热在线av 美女xxoo啪啪120秒动态图熟女av电影精品久久久久久电影网大码成人一级视频人人妻人人添人人爽欧美一区卜 av.在线天堂日本wwww免费看 av有码第一页日本黄大片高清日韩一本色道免费dvd 少妇精品久久久久久久最后的刺客免费高清国语午夜福利视频在线观看免费 av网站免费在线观看视频免费av不卡在线播放热re99久久精品国产66热6 久久久a久久爽久久v久久性色av一级国产淫语在线视频国产精品久久久久成人av 欧美日韩一区二区视频在线观看视频在线日韩视频在线欧美内地一区二区视频在线 99久久综合免费亚洲人与动物交配视频亚洲av.av天堂国产精品一国产av 国产极品天堂在线欧美最新免费一区二区三区中文精品一卡2卡3卡4更新韩国av在线不卡超碰97精品在线观看日日爽夜夜爽网站亚洲av电影在线观看一区二区三区亚洲av男天堂校园人妻丝袜中文字幕国产一区二区在线观看日韩久久99热6这里只有精品日本午夜av视频亚洲欧美日韩另类电影网站亚洲国产av新网站亚洲成av片中文字幕在线观看亚洲少妇的诱惑av 色哟哟·www 自拍欧美九色日韩亚洲蝌蚪91 欧美国产精品一级二级三级国产在线一区二区三区精欧美亚洲国产日韩一男男h啪啪无遮挡亚洲av男天堂午夜老司机福利剧场少妇高潮的动态图曰老女人黄片午夜福利网站1000一区二区三区亚洲经典国产精华液单最近中文字幕高清免费大全6 久久精品国产鲁丝片午夜精品国产女主播在线喷水免费视频网站美女脱内裤让男人舔精品视频两个人免费观看高清视频亚洲熟女精品中文字幕久久精品国产亚洲av天美国产极品天堂在线 97超碰精品成人国产国语对白做爰xxxⅹ性视频网站男人爽女人下面视频在线观看曰老女人黄片香蕉丝袜av 免费黄网站久久成人精品青春草视频在线免费观看亚洲第一区二区三区不卡综合色丁香网交换朋友夫妻互换小说国产精品熟女久久久久浪午夜免费观看性视频久久久久精品久久久久真实原创欧美变态另类bdsm刘玥亚洲精品乱码久久久久久按摩国产熟女欧美一区二区男女啪啪激烈高潮av片曰老女人黄片 51国产日韩欧美高清欧美精品videossex 热re99久久精品国产66热6 亚洲精品美女久久av网站九色成人免费人妻av 男人添女人高潮全过程视频精品酒店卫生间久久久久国产网址久久精品aⅴ一区二区三区四区国产高清三级在线国产av国产精品国产女人久久www免费人成看片国产成人精品婷婷亚洲精品色激情综合人妻亚洲视频十八禁高潮呻吟视频欧美精品国产亚洲国产黄色免费在线视频 99热6这里只有精品午夜精品国产一区二区电影毛片一级片免费看久久久久 a级毛色黄片午夜激情av网站国产精品一区二区在线不卡亚洲美女搞黄在线观看日本猛色少妇xxxxx猛交久久 av天堂久久9 xxxhd国产人妻xxx 色网站视频免费人妻一区二区av 国产高清三级在线黄网站色视频无遮挡免费观看久久精品aⅴ一区二区三区四区国产色婷婷99 女的被弄到高潮叫床怎么办一级毛片黄色毛片免费观看视频欧美xxⅹ黑人精品熟女少妇av免费看 av电影中文网址 9191精品国产免费久久 18+在线观看网站黄色视频在线播放观看不卡十八禁网站网址无遮挡欧美激情高清一区二区三区大片免费播放器马上看亚洲第一av免费看久久国产亚洲av麻豆专区 av电影中文网址亚洲欧洲国产日韩中文字幕另类日韩欧美亚洲嫩草日韩欧美一区视频在线观看日韩一本色道免费dvd 伊人亚洲综合成人网 69精品国产乱码久久久精品人妻一区二区三区麻豆 2018国产大陆天天弄谢国产在线一区二区三区精十分钟在线观看高清视频www 国产乱人偷精品视频国产极品天堂在线亚洲国产最新在线播放天美传媒精品一区二区免费看光身美女国产精品99久久99久久久不卡日本爱情动作片www.在线观看亚洲图色成人精品久久久久久电影网亚洲人成77777在线视频男女下面插进去视频免费观看宅男免费午夜 99热这里只有是精品在线观看精品99又大又爽又粗少妇毛片最近最新中文字幕免费大全7 久久热在线av 午夜福利网站1000一区二区三区国产成人午夜福利电影在线观看人人妻人人澡人人爽人人夜夜两个人免费观看高清视频亚洲欧洲国产日韩国产精品一区二区在线不卡狂野欧美激情性xxxx在线观看成人手机av 欧美精品人与动牲交sv欧美九色成人免费人妻av 久久精品aⅴ一区二区三区四区国产精品嫩草影院av在线观看色视频在线一区二区三区 2022亚洲国产成人精品日日撸夜夜添街头女战士在线观看网站九色亚洲精品在线播放一级黄片播放器成人漫画全彩无遮挡国产成人午夜福利电影在线观看欧美日韩亚洲高清精品你懂的网址亚洲精品在线观看日韩av在线免费看完整版不卡欧美亚洲丝袜人妻在线精品国产乱码久久久久久小说男女下面插进去视频免费观看国产精品熟女久久久久浪男女午夜视频在线观看性色avwww在线观看 av线在线观看网站最黄视频免费看国产精品1 最近手机中文字幕大全国产色婷婷99 久久久久精品性色 √禁漫天堂资源中文www 国产免费视频播放在线视频国产日韩欧美在线精品少妇高潮的动态图国产精品久久久久成人av 好男人视频免费观看在线日韩制服丝袜自拍偷拍免费女性裸体啪啪无遮挡网站精品国产露脸久久av麻豆 freevideosex欧美 av片东京热男人的天堂天堂8中文在线网国产白丝娇喘喷水9色精品 av在线观看视频网站免费 99久久中文字幕三级久久日本日本黄色日本黄色录像丝袜美足系列男人操女人黄网站亚洲av在线观看美女高潮伦精品一区二区三区 97在线视频观看一级毛片电影观看一级,二级,三级黄色视频国产综合精华液日本欧美国产在线视频久久久久国产网址国产爽快片一区二区三区久久久欧美国产精品久久99热这里只频精品6学生久久久久久久久久久免费av 精品一区二区三区四区五区乱码亚洲精品美女久久av网站国产一区亚洲一区在线观看中文字幕精品免费在线观看视频成年动漫av网址欧美老熟妇乱子伦牲交国产乱人偷精品视频久久精品国产综合久久久日韩亚洲欧美在线久久99热6这里只有精品成人亚洲精品一区在线观看国产成人免费无遮挡视频草草在线视频免费看欧美bdsm另类 97在线人人人人妻欧美激情国产日韩精品一区如日韩欧美国产精品一区二区三区亚洲图色成人国产精品女同一区二区软件国语对白做爰xxxⅹ性视频网站免费观看无遮挡的男女亚洲国产毛片av蜜桃av 女人精品久久久久毛片大香蕉久久网久久精品久久精品一区二区三区 99久国产av精品国产电影日韩在线高清观看一区二区三区中文精品一卡2卡3卡4更新 26uuu在线亚洲综合色人体艺术视频欧美日本高清av免费在线 91精品伊人久久大香线蕉午夜视频国产福利国产成人欧美久久精品国产鲁丝片午夜精品亚洲国产欧美日韩在线播放久久99热这里只频精品6学生咕卡用的链子成人午夜精彩视频在线观看久久久精品免费免费高清黄网站色视频无遮挡免费观看最近中文字幕2019免费版国产无遮挡羞羞视频在线观看少妇人妻久久综合中文亚洲精品美女久久av网站精品第一国产精品国产免费一区二区三区四区乱码飞空精品影院首页中文字幕av电影在线播放国产亚洲精品第一综合不卡一级爰片在线观看午夜影院在线不卡亚洲精品久久久久久婷婷小说日韩,欧美,国产一区二区三区乱码一卡2卡4卡精品亚洲人成网站在线观看播放国产一区精品亚洲av日韩在线播放天天影视国产精品人人妻人人澡人人爽人人夜夜女人被躁到高潮嗷嗷叫费观国产精品久久久久久av不卡综合色丁香网香蕉精品网在线国产精品久久久久成人av 久久精品人人爽人人爽视色亚洲熟女精品中文字幕亚洲欧美日韩卡通动漫 av在线老鸭窝欧美性感艳星国产男女超爽视频在线观看日韩成人伦理影院狂野欧美激情性xxxx在线观看少妇被粗大猛烈的视频 av在线app专区男女边摸边吃奶国产免费福利视频在线观看色吧在线观看亚洲精品乱久久久久久国产精品国产三级国产av玫瑰久久这里只有精品19 色婷婷久久久亚洲欧美欧美精品人与动牲交sv欧美免费女性裸体啪啪无遮挡网站久久99精品国语久久久国产欧美日韩综合在线一区二区欧美精品人与动牲交sv欧美中文字幕人妻熟女乱码久久久a久久爽久久v久久亚洲内射少妇av 如何舔出高潮亚洲婷婷狠狠爱综合网日本黄色日本黄色录像天天影视国产精品人人妻人人澡人人看看非洲黑人一级黄片青青草视频在线视频观看 2022亚洲国产成人精品纯流量卡能插随身wifi吗美女主播在线视频日日爽夜夜爽网站精品99又大又爽又粗少妇毛片色哟哟·www 久久久久久人人人人人欧美3d第一页国产极品粉嫩免费观看在线午夜福利乱码中文字幕内地一区二区视频在线国产精品.久久久久久精品久久久久久久性伦理电影免费视频一本—道久久a久久精品蜜桃钙片 91精品国产国语对白视频国产片特级美女逼逼视频免费观看性生交大片5 日本wwww免费看日本欧美国产在线视频国产免费视频播放在线视频只有这里有精品99 菩萨蛮人人尽说江南好唐韦庄人妻一区二区av 欧美日韩综合久久久久久亚洲国产毛片av蜜桃av 最近2019中文字幕mv第一页岛国毛片在线播放色网站视频免费亚洲综合色惰国产亚洲一区二区精品国产亚洲精品久久久com 久久久久精品久久久久真实原创国产精品人妻久久久久久在线亚洲精品国产二区图片欧美一级片'在线观看视频伦理电影大哥的女人欧美xxⅹ黑人日韩成人av中文字幕在线观看国产在线免费精品久久99精品国语久久久在线观看免费日韩欧美大片久久久久久人妻不卡视频在线观看欧美日韩亚洲欧美在线中文字幕精品免费在线观看视频亚洲色图综合在线观看日韩一本色道免费dvd 国产在线视频一区二区国产午夜精品一二区理论片国产在视频线精品免费黄色在线免费观看精品久久久精品久久久国产成人a∨麻豆精品校园人妻丝袜中文字幕 xxx大片免费视频免费观看无遮挡的男女人人妻人人添人人爽欧美一区卜人妻亚洲视频岛国毛片在线播放

一个人看片免费亚洲精品乱码爱久久久久免费观看亚洲一区二区

基于模型的機器人強化學(xué)習(xí)研究綜述

1 機器人學(xué)習(xí)問題的形式化

2 基礎(chǔ)理論

2.1 強化學(xué)習(xí)概念

2.2 基于模型的強化學(xué)習(xí)

3 學(xué)習(xí)環(huán)境的動力學(xué)模型

3.1 模型學(xué)習(xí)概要

3.2 前向動力學(xué)模型

3.3 逆向動力學(xué)模型

3.4 隱式模型

4 模型利用

4.1 基于模型的規(guī)劃

4.2 基于模型的策略學(xué)習(xí)

4.3 隱式規(guī)劃

5 在機器人領(lǐng)域的應(yīng)用與挑戰(zhàn)

5.1 在機器人領(lǐng)域的應(yīng)用

5.2 在機器人領(lǐng)域的挑戰(zhàn)

6 結(jié) 束 語

6 結(jié) 束語