• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于最大熵深度強化學(xué)習(xí)的雙足機器人步態(tài)控制方法

    2024-03-21 02:24:40李源潮陶重犇
    計算機應(yīng)用 2024年2期
    關(guān)鍵詞:策略方法

    李源潮,陶重犇,2*,王 琛

    (1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009;2.清華大學(xué) 蘇州汽車研究院,江蘇 蘇州 215134)

    0 引言

    雙足機器人屬于仿人機器人。相較于輪式、履帶式機器人,雙足機器人具有復(fù)雜的腿部關(guān)節(jié)結(jié)構(gòu),不僅可以獲得更高的靈活度與適應(yīng)性,而且能實現(xiàn)爬樓梯、非平整地面等復(fù)雜路面情況下的正常行走[1]。因此獲得快速、穩(wěn)定的步態(tài)控制是雙足機器人的研究重點[2]。由于非線性和不穩(wěn)定性因素,雙足機器人步態(tài)控制系統(tǒng)的設(shè)計比較困難[3]。傳統(tǒng)基于模型的步態(tài)控制已有大量研究[4-7]。針對特定的步態(tài)運動,通常采用開環(huán)控制方法預(yù)先設(shè)定各關(guān)節(jié)的位置軌跡,控制各關(guān)節(jié)位置,以實現(xiàn)運動?;诹懔攸c(Zero Moment Point,ZMP)的方法是雙足機器人步態(tài)控制的常用方法[8-9]。這些傳統(tǒng)的方法依賴于復(fù)雜的動力學(xué)模型和數(shù)學(xué)工程,但是在自身和環(huán)境變化時,容易造成運動失效[10]。

    傳統(tǒng)基于模型的步態(tài)控制方法很難適應(yīng)多變的環(huán)境。相比之下,由于自適應(yīng)學(xué)習(xí)的特性,端到端的深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)算法越來越多地應(yīng)用于機器人控制領(lǐng)域。端到端DRL 可以不假設(shè)任何步態(tài)或機器人動力學(xué)的先驗知識,應(yīng)用于機器人系統(tǒng)[11]。如果成功應(yīng)用,DRL 可以自動完成對控制器的設(shè)計。而基于模型的方法由于環(huán)境動力學(xué)模型復(fù)雜,無法得到準確的模型,給智能體訓(xùn)練產(chǎn)生了誤差。無模型的方法無需構(gòu)建環(huán)境模型,智能體直接與環(huán)境交互,它的策略更準確,對環(huán)境的適應(yīng)性更好[12]。

    本文提出一種基于最大熵深度強化學(xué)習(xí)方法對雙足機器人的步態(tài)控制方法,采用最大熵框架,可以讓策略盡可能隨機。雙足機器人可以更充分地探索狀態(tài)空間,避免策略過早落入局部最優(yōu)點,充分發(fā)揮雙足機器人自主探索的能力[13],獲得適應(yīng)環(huán)境的步態(tài),提高抗干擾能力。本文的主要工作如下:

    1)針對雙足機器人連續(xù)直線行走的步態(tài)穩(wěn)定控制問題,提出一種基于柔性演員-評論家(Soft Actor-Critic,SAC)的DRL 步態(tài)控制方法。該方法無需事先建立動力學(xué)模型,使雙足機器人直接與環(huán)境交互,獲取經(jīng)驗樣本優(yōu)化策略函數(shù)。并且輸入神經(jīng)網(wǎng)絡(luò)的參數(shù)來自機器人本身的關(guān)節(jié)角度,無需額外的傳感器,從而使該方法具有更好的移植性。

    2)針對DRL 樣本效率低下,導(dǎo)致策略收斂緩慢的問題,提出了一種余弦相似度方法對經(jīng)驗樣本分類,提高樣本使用效率,并且加快了訓(xùn)練的收斂。

    3)針對雙足機器人受髖關(guān)節(jié)擺動影響無法較好地實現(xiàn)直線行走的問題,利用知識和經(jīng)驗設(shè)計獎勵函數(shù),約束雙足機器人直線行走。

    1 相關(guān)工作

    在過去30 年里,許多學(xué)者使用不同的方案控制雙足機器人的步態(tài),從基于模型的傳統(tǒng)控制方法到端到端的DRL方法;然而,設(shè)計機器人模型所需的專業(yè)知識以及精確的機器人動力學(xué)模型很難獲得。相反,無模型的DRL 方法無需環(huán)境動力學(xué)模型,機器人直接與環(huán)境進行交互,同時在和環(huán)境交互不斷試錯的過程中,觀察環(huán)境相關(guān)信息并利用反饋的獎勵信號不斷學(xué)習(xí),尋找最優(yōu)策略。

    雙足步行控制可以被抽象為解決未處理的高維感官輸入復(fù)雜任務(wù)的一種方式。深度學(xué)習(xí)(Deep Learning,DL)已在解決高維復(fù)雜問題方面取得了許多成就。DRL 將DL 和強化學(xué)習(xí)(Reinforcement Learning,RL)相結(jié)合,既具有解決高維復(fù)雜問題的能力,也具有決策能力。Actor-Critic 框架法結(jié)合了價值函數(shù)和策略函數(shù),解決了策略函數(shù)法收斂速度慢的問題。例如深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[14]和異步參與者批評家(Asynchronous Advantage Actor-Critic,A3C)[15]算法。A3C 算法通常獲得局部最優(yōu)解,對策略的評估效率低下。Wu 等[16]引入了DRL 算法,為傳統(tǒng)步態(tài)控制方法解決了上述問題。DDPG 算法、近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[17]和信賴域策略優(yōu)化(Trust Region Policy Optimization,TRPO)算法[18]可以探索連續(xù)的動作空間,使深度強化學(xué)習(xí)算法成功應(yīng)用于雙足機器人的步態(tài)控制問題[19]。趙玉婷等[20]將深度Q 學(xué)習(xí)(Deep Q-Network,DQN)算法應(yīng)用于雙足機器人在非平整地面的步態(tài)控制,在V-Rep 平臺經(jīng)過多回合訓(xùn)練調(diào)整實現(xiàn)穩(wěn)定的雙足機器人行走。Tao 等[21]將一種并行DDPG 算法用于雙足機器人步態(tài)控制,改進了經(jīng)驗回放機制,提高了采樣效率和優(yōu)化了策略函數(shù),并在RoboCup 仿真環(huán)境中實現(xiàn)了穩(wěn)定行走。Rodriguez 等[22]將深度強化學(xué)習(xí)算法用于雙足機器人全向行走控制。每一個運動是由單個控制策略網(wǎng)絡(luò)實現(xiàn)的,目標(biāo)難度逐步增加,最終實現(xiàn)雙足機器人全向行走。

    雖然DRL 算法在處理復(fù)雜的雙足機器人步態(tài)控制問題方面具有優(yōu)勢,但仍會陷入探索困境。由于缺乏對環(huán)境的魯棒性,整體收益小,導(dǎo)致雙足機器人行走效果較差等。最大熵DRL 算法基于最大熵原理,旨在通過加權(quán)最大化期望收益和策略的期望熵。產(chǎn)生相對穩(wěn)健的策略是最大熵強化學(xué)習(xí)的一個優(yōu)點,由于在訓(xùn)練期間注入結(jié)構(gòu)化噪聲,使策略更廣泛地探索狀態(tài)空間,可以有效提高策略的魯棒性[23]。該算法直接讓雙足機器人與環(huán)境進行交互,并使用自身采樣的樣本數(shù)據(jù)提高策略性能,使它更好地適應(yīng)環(huán)境。本文方法還優(yōu)化經(jīng)驗回放機制,使用余弦相似度對經(jīng)驗分類,提高采樣效率;同時,還設(shè)計了一系列獎勵機制,以提高雙足機器人行走穩(wěn)定性。本文的步態(tài)控制方法框架如圖1 所示。

    圖1 本文步態(tài)控制方法的總體框架Fig.1 Overall framework of the proposed gait control method

    2 基于柔性演員-評論家的步態(tài)控制方法

    2.1 深度強化學(xué)習(xí)

    深度強化學(xué)習(xí)是通過智能體與環(huán)境交互學(xué)習(xí)。智能體選擇一個動作后,會從環(huán)境中得到相應(yīng)的狀態(tài)和獎勵。通過這個持續(xù)交互過程的學(xué)習(xí),最終獲得最優(yōu)策略函數(shù)。智能體與環(huán)境之間的交互被建模為馬爾可夫決策過程(Markov Decision Process,MDP)。MDP 通常由一個五元組表示(S,A,P,R,γ),其中:S表示狀態(tài)集合;A表示可執(zhí)行的動作集合;P:S×A×S→[0,1]表示狀態(tài)轉(zhuǎn)移函數(shù);P(st+1|st,at)表示智能體在狀態(tài)st下采取行動at后轉(zhuǎn)移到下一個狀態(tài)st+1的概率;R:S×A×S→R表示獎勵函數(shù);R:(st,at,st+1)表示智能體在狀態(tài)st下采取行動at后轉(zhuǎn)移到下一個狀態(tài)st+1的立即獎賞;γ是獎勵的折扣系數(shù)。智能體通過選擇使未來獎勵最大化的動作與環(huán)境交互。

    傳統(tǒng)的DL 方法選擇最佳動作通常是基于查找表,而DRL 方法通過深度神經(jīng)網(wǎng)絡(luò)決策動作,大幅提升了解決復(fù)雜高維問題的能力。Mnih 等[24]通過DQN 解決以原始像素作為輸入的高維復(fù)雜問題,這種方法在多個視頻游戲中取得了與人類相當(dāng)?shù)谋憩F(xiàn)。DQN 在處理離散動作空間的問題中游刃有余。然而,在涉及連續(xù)動作空間的機器人控制問題時,DQN 無法獲得較好的結(jié)果。因此在應(yīng)對連續(xù)動作的機器人控制問題就需要另外一種算法。

    SAC 的核心理念是使用近似函數(shù)去學(xué)習(xí)連續(xù)動作空間的策略函數(shù)[25]。SAC 的目標(biāo)是最大化智能體與環(huán)境交互中獲得的獎勵。為了實現(xiàn)這一目標(biāo),SAC 使用了軟策略迭代。軟策略迭代的過程在最大熵框架中交替進行,包括策略評估和策略改進兩個步驟:策略評估是根據(jù)最大熵框架為當(dāng)前策略找到精確的價值函數(shù);策略改進是將策略分布更新為當(dāng)前Q 函數(shù)的指數(shù)分布。SAC 使用神經(jīng)網(wǎng)絡(luò)作為近似函數(shù),包括3 種神經(jīng)網(wǎng)絡(luò):策略網(wǎng)絡(luò)(用來表示策略函數(shù))、價值網(wǎng)絡(luò)(用來表示狀態(tài)-價值函數(shù))和軟Q 網(wǎng)絡(luò)(用來表示軟Q 函數(shù))。SAC 的策略網(wǎng)絡(luò)訓(xùn)練通過最大化熵和獎勵更新網(wǎng)絡(luò)參數(shù),這3 個網(wǎng)絡(luò)的參數(shù)可以通過最小化誤差進行優(yōu)化。本文SAC偽代碼如算法1 所示。

    算法1 柔性演員-評論家(SAC)算法。

    一般DRL 的目標(biāo)是學(xué)習(xí)一個策略函數(shù)可以最大化有限范圍時間T內(nèi)的期望累積折扣獎勵,即找到一個最大化的策略而本文的最大熵深度強化學(xué)習(xí),除了上面的基本目標(biāo),還要求策略函數(shù)每次輸出的動作熵最大:

    其中H(π(?|s′))=-Ealogπ(a′|s′)。加入熵相后,就意味著神經(jīng)網(wǎng)絡(luò)需要探索所有可能的最優(yōu)動作,而不是對于一種狀態(tài)只考慮一個最優(yōu)動作。因此雙足機器人在面對干擾時可以更容易地作出調(diào)整。

    令Q?(s,a)表示Q 值函數(shù),πθ表示策略函數(shù)。這里考慮連續(xù)動作的設(shè)定,并假設(shè)πθ的輸出為一個正態(tài)分布的期望和方差。Q 值函數(shù)可以通過最小化柔性Bellman 殘差學(xué)習(xí):

    實際中,SAC 也使用了兩個Q 值函數(shù)(同時還有兩個目標(biāo)Q 值函數(shù))處理Q 值估計的偏差問題,即令Q?(s,a)=注意Jπ(θ)中的期望也依賴于策略πθ,可以使用似然比例梯度估計的方法優(yōu)化Jπ(θ)。在連續(xù)動作空間的設(shè)定下,也可以用策略網(wǎng)絡(luò)的重參數(shù)化優(yōu)化。這樣通常能減少梯度估計的方差。再參數(shù)化的做法將πθ表示成一個使用狀態(tài)s和標(biāo)準正態(tài)樣本?作為其輸入的函數(shù)直接輸出動作a:

    將式(4)代入式(3)中得到:

    其中:N 表示標(biāo)準正態(tài)分布,現(xiàn)在πθ被表示為fθ。

    最后,SAC 還提供了自動調(diào)節(jié)正則化參數(shù)方法。該方法通過最小化以下?lián)p失函數(shù)實現(xiàn):

    其中k是一個可以理解為目標(biāo)熵的超參數(shù)。這種更新α的方法稱為自動熵調(diào)節(jié)方法中。其背后的原理是在給定每一步平均熵至少為k的約束下,原來策略優(yōu)化問題的對偶形式。

    2.2 優(yōu)化經(jīng)驗回放機制

    與文獻[26]中的經(jīng)驗回放機制不同,本文設(shè)計了一種經(jīng)驗分類單元和兩個經(jīng)驗池。在經(jīng)驗分類單元中,使用余弦相似度方法對經(jīng)驗樣本進行分類。首先,將訓(xùn)練產(chǎn)生經(jīng)驗樣本存儲在經(jīng)驗分類單元中;其次,在回合結(jié)束后利用余弦相似度方法計算經(jīng)驗狀態(tài)與當(dāng)前訓(xùn)練狀態(tài)的相似度。相似度高的經(jīng)驗樣本存儲在高相似度經(jīng)驗池HE 中,相似度低的經(jīng)驗樣本存儲在低相似度經(jīng)驗池LE 中。給定兩個狀態(tài)s1和s2,對s1和s2的相似度計算規(guī)則如下:

    狀態(tài)相似度通過測量兩個狀態(tài)內(nèi)積空間角度的余弦值表示:如果兩個狀態(tài)方向相同,則它們的狀態(tài)相似度為1;如果兩個狀態(tài)方向垂直,則它們的狀態(tài)相似度為0。每個經(jīng)驗樣本根據(jù)相似度分類法存儲于對應(yīng)的經(jīng)驗池。

    注意,高相似度經(jīng)驗池HE 的采樣概率為μ,低相似度經(jīng)驗池LE 的采樣概率為1 -μ,其中μ>0.5。

    2.3 神經(jīng)網(wǎng)絡(luò)設(shè)計

    在神經(jīng)網(wǎng)絡(luò)設(shè)計部分,主要分為3 個部分:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、策略網(wǎng)絡(luò)的輸入和策略網(wǎng)絡(luò)的輸出。

    2.3.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    在SAC 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,主要存在3 種神經(jīng)網(wǎng)絡(luò):價值網(wǎng)絡(luò)、軟Q 網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。所有層均以全連接層的形式連接。本文中用于測試的Atlas 雙足機器人有30 個自由度,從中選取了影響Atlas 機器人行走的12 個重要參數(shù)作為策略網(wǎng)絡(luò)輸入的一部分;同時,還加入了質(zhì)心的偏移作為影響雙足機器人平衡的重要參數(shù)。策略網(wǎng)絡(luò)的輸出是Atlas 機器人腿部關(guān)節(jié)角度,包括12 個參數(shù),也是策略網(wǎng)絡(luò)的輸入?yún)?shù)。而價值網(wǎng)絡(luò)和軟Q 網(wǎng)絡(luò)的輸入是機器人的狀態(tài)參數(shù),輸出是單個參數(shù)。因此,策略網(wǎng)絡(luò)的輸入為15 個參數(shù),輸出為12 個參數(shù),網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示(CoM表示質(zhì)心)。軟Q 網(wǎng)絡(luò)的輸入還包括策略網(wǎng)絡(luò)的輸出。因此軟Q 網(wǎng)絡(luò)的輸入為27 個參數(shù),輸出為1 個參數(shù)。價值網(wǎng)絡(luò)的輸入為15 個參數(shù),輸出為1 個參數(shù)。在隱藏層部分,策略網(wǎng)絡(luò)、軟Q 網(wǎng)絡(luò)和價值網(wǎng)絡(luò)使用的層數(shù)都是3。隱藏層的激活函數(shù)是ReLU(Rectified Linear Unit)??刂齐p足機器人腿部關(guān)節(jié)需要正值和負值,因此策略網(wǎng)絡(luò)輸出層的激活函數(shù)選擇Tanh,Tanh 將輸出值控制在[-1,1]。

    圖2 策略網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of policy network

    2.3.2 策略網(wǎng)絡(luò)的輸入

    策略網(wǎng)絡(luò)的輸入是雙足機器人的狀態(tài)空間。在構(gòu)建狀態(tài)空間時,許多現(xiàn)有的基于強化學(xué)習(xí)的雙足運動方法使用機器人全部狀態(tài)作為神經(jīng)網(wǎng)絡(luò)中策略網(wǎng)絡(luò)的輸入,顯著降低了訓(xùn)練過程的采樣效率,從而導(dǎo)致不必要的大型神經(jīng)網(wǎng)絡(luò)和延長訓(xùn)練時間;然而,狀態(tài)空間還得考慮到變量的豐富性和必要性,因此,適當(dāng)?shù)剡x擇一些有用的信息,讓網(wǎng)絡(luò)有良好的學(xué)習(xí)效率和結(jié)果很重要。本文的目標(biāo)是讓雙足機器人快速、穩(wěn)定地行走到100 m 外的終點,在行走過程中減少雙腿自碰撞和摔倒。本文選取了影響雙足機器人速度和穩(wěn)定性的重要參數(shù)作為狀態(tài)空間組成部分。狀態(tài)空間如表1 所示。

    表1 狀態(tài)空間Tab.1 State space

    2.3.3 策略網(wǎng)絡(luò)的輸出

    策略網(wǎng)絡(luò)的輸出是雙足機器人的動作空間。動作空間是機器人與環(huán)境交互的方式。本文選取了影響Atlas 雙足機器人行走的12 個重要參數(shù)作為Atlas 機器人的動作空間,Atlas 機器人采用不同的動作與環(huán)境交互,會獲得不同的狀態(tài)和獎勵,因此策略網(wǎng)絡(luò)的目標(biāo)是輸出使獎勵最大化的動作。動作空間的參數(shù)如表2 所示。

    表2 動作空間Tab.2 Action space

    2.4 獎勵函數(shù)

    獎勵函數(shù)對于DRL 算法至關(guān)重要,它直接指導(dǎo)整個算法的收斂方向,也是算法中任務(wù)目標(biāo)的直接體現(xiàn)。因此,獎勵函數(shù)的設(shè)計需要結(jié)合實際任務(wù),明確最終目標(biāo)。本文基于SAC 的步態(tài)控制方法的最終目標(biāo)是控制雙足機器人減少自碰撞,并在平坦的地面上完成連續(xù)穩(wěn)定的直線行走。因此,雙足機器人因自碰撞或其他問題而摔倒的次數(shù)可以作為獎勵函數(shù)的一項。雙足機器人在規(guī)定時間內(nèi)連續(xù)穩(wěn)定行走的距離也可以作為獎勵函數(shù)的判斷依據(jù):雙足機器人摔倒的次數(shù)越多,獲得的懲罰越多;連續(xù)穩(wěn)定行走的距離越遠,獲得的獎勵越多。

    理想情況下,當(dāng)雙足機器人能夠連續(xù)穩(wěn)定行走時,每一輪行走的距離應(yīng)該相近。然而,在雙足機器人訓(xùn)練的前期,由于無法獲得連續(xù)穩(wěn)定的步伐,在每一輪的訓(xùn)練中,取最大距離作為獎勵函數(shù)的評定項。訓(xùn)練結(jié)束后,通過分析雙足機器人摔倒次數(shù)和行走的距離判斷雙足機器人是否達到理想效果。還引入知識和經(jīng)驗設(shè)計多種獎勵函數(shù)。該方法加速了DRL 算法的收斂,使雙足機器人行走更快、更穩(wěn)定。

    2.4.1 速度和穩(wěn)定性獎勵

    雙足機器人的目標(biāo)是穩(wěn)定地直線行走到100 m 外的終點。如果在行走過程中摔倒或超過1 000 步,則本回合結(jié)束,獲得一個值為-5+2.5 × (當(dāng)前距離Dis/時間T)的懲罰獎勵分數(shù),并且重新開始下一回合的訓(xùn)練。如果雙足機器人順利完成100 m 距離的行走或者完成1 000 步,則會獲得一個值為(距離Dis/時間T)的獎勵分數(shù),并且重新開始下一輪的訓(xùn)練 。在摔倒那一項獎勵函數(shù)中加入 2.5 ×(當(dāng)前距離Dis/時間T),為的是鼓勵雙足機器人走得更遠。而總體獎勵函數(shù)中都除以時間T項,為的是提高雙足機器人行走的速度。因此,速度獎勵定義為:

    為了保持雙足機器人行走過程中的穩(wěn)定性,本文考慮了雙足機器人因雙腿自碰撞,以及腿部零力矩點(Center of Mass,CoM)偏移過大而摔倒的問題。為了使雙足機器人獲得穩(wěn)定的步態(tài),必須對雙足機器人設(shè)計穩(wěn)定性獎勵。

    1)因雙腿自碰撞而摔倒的問題。

    雙足機器人在行走時,髖關(guān)節(jié)容易帶動腿在冠狀面擺動,造成兩條腿往相反方向運動,從而導(dǎo)致雙腿發(fā)生碰撞而摔倒。穩(wěn)定性獎勵R2如下:

    其中HipZsum=|AnglehipZL+AnglehipZR|。

    2)因CoM 不在兩腿坐標(biāo)線中點而摔倒問題。

    為了保持穩(wěn)定性,本文采用游動腿的CoM 始終在兩腿坐標(biāo)線中點的標(biāo)準進行訓(xùn)練。當(dāng)CoM 不在中點時,該輪結(jié)束。穩(wěn)定性獎勵R3為:

    其中Pshake=CoMoffx+CoMoffy。

    2.4.2 約束獎勵

    強化學(xué)習(xí)訓(xùn)練時,可能會獲得奇怪的行走姿勢。為了使雙足機器人行走更像人類,加入兩個循環(huán)時鐘,每個對應(yīng)于機器人的一條腿:

    其中:φt是一個相位變量,它從0 遞增到1,然后回滾到0,跟蹤步態(tài)的當(dāng)前相位。恒定偏移0.0 和0.5 是相位偏移,用于確保左右腿在運動過程中的相位始終完全相反。

    在雙足機器人訓(xùn)練過程中,為了讓雙足機器人沿直線行走,必須控制雙足機器人髖關(guān)節(jié)的擺動。約束獎勵如下:

    其中HipYsum=|AnglehipYL+AnglehipYR|。

    綜上所述,最終的獎勵R定義為:

    3 實驗與結(jié)果分析

    本文在Roboschool 平臺使用SAC 步態(tài)控制方法對Atlas雙足機器人進行訓(xùn)練,訓(xùn)練的內(nèi)容是在平整路面上沿著某一固定方向直線行走。本文使用另外兩種先進DRL 算法PPO和TRPO 進行對比實驗。在同一環(huán)境、相同參數(shù)下,對Atlas雙足機器人進行訓(xùn)練,下面給出仿真結(jié)果和對結(jié)果的分析。

    3.1 學(xué)習(xí)速度和獎勵值

    本文用于訓(xùn)練的電腦配置如下:硬件環(huán)境為Intel Core i9-9900K 處理器,內(nèi)存32 GB,顯卡NVIDIA GTX 2080 Ti,軟件環(huán)境為OpenAI Gym、Roboschool 和Chainerrl。訓(xùn)練過程中的獎勵值如圖3 所示(max 表示同一時間步下獎勵的最大值,min 表示同一時間步下獎勵的最小值)。從圖3 中可以得出,本文SAC 算法相較于另外三種算法有很大提升,不僅是智能體獎勵值的提升,而且還提高了收斂速度。

    圖3 四種算法的獎勵值比較Fig.3 Comparison of reward values among four algorithms

    在同一環(huán)境、相同的實驗參數(shù),本文測試了chainerrl[27]原本的SAC 算法和優(yōu)化后的SAC 算法,以及另外兩種先進的深度強化學(xué)習(xí)算法PPO 和TRPO。每一種算法,都在Roboschool 仿真環(huán)境里進行了1 000 萬個時間步的訓(xùn)練。每10 萬個時間步,對每個算法進行20 回合的評估。在這20 回合里取獎勵值最大和最小回合的獎勵值,并做了記錄。最后繪制圖3 所示的獎勵值圖。

    在相同時間步的情況下,算法訓(xùn)練的智能體獎勵值越大,學(xué)習(xí)速度則越高。而曲線的平滑性則與步態(tài)控制方法的魯棒性密切相關(guān),曲線越平滑,方法的魯棒性越好。由圖3可知,本文優(yōu)化的SAC 與chainerrl 中原本的SAC 算法與其他兩種先進的深度強化學(xué)習(xí)算法相比,本文算法收斂速度明顯提高,并且實驗的獎勵值對比PPO 和TRPO 兩種算法有很大的提升。優(yōu)化的SAC 和SAC 算法在200 萬時間步左右達到一個比較高的獎勵值,而PPO 和TRPO 算法在600 萬時間步左右才達到一個比較高的獎勵值。從整體曲線的平滑性來看,本文優(yōu)化的SAC 步態(tài)控制方法,有更快的收斂速度,以及更好的魯棒性。

    3.2 雙足機器人步態(tài)控制結(jié)果與分析

    由3.1 節(jié)可知本文SAC 步態(tài)控制方法具有良好的收斂速度和性能。3 種算法在同一臺電腦上運行相同實驗,PPO和TRPO 算法完成1 000 萬個時間步需要30 h,而本文SAC 算法需要60 h。本文在訓(xùn)練Atlas 機器人直線行走時,并未實時渲染Atlas 機器人的訓(xùn)練情況。在3 種算法完成1 000 萬個時間步后,本文使用3 種算法訓(xùn)練出來的最優(yōu)模型參數(shù)控制Atlas 機器人直線行走。然而,只有本文SAC 算法具有成功控制Atlas 機器人實現(xiàn)直線行走的能力。其他兩種算法對Atlas 機器人行走能力的控制的效果較差。

    由圖4 可知,本文SAC 算法實現(xiàn)Atlas 機器人直線行走能力最好,PPO 和TRPO 算法對Atlas 機器人行走控制還存在直線行走能力較差、行走磕絆、摔倒等問題。

    圖4 雙足機器人在Roboschool中行走的細節(jié)Fig.4 Detail of biped robot walking in Roboschool

    本文算法在Atlas 機器人步態(tài)控制中的仿真結(jié)果表明,Atlas 機器人可以完成1 000 步的行走,整個過程非常穩(wěn)定,沒有發(fā)生跌倒的情況;此外,Atlas 機器人實現(xiàn)了優(yōu)異的直線行走能力。

    踝關(guān)節(jié)控制雙足機器人游動腿在落地時是否與地面平行。當(dāng)與地面平行時,Atlas 機器人行走穩(wěn)定。由圖5 可知,Atlas 機器人在行走過程中,兩條游動腿踝關(guān)節(jié)的角度相互交替,穩(wěn)定地控制雙足機器人在行走過程中啟動和落地。后文圖例中L/R 表示左/右,ak 表示踝關(guān)節(jié),hip 表示髖關(guān)節(jié),kn表示膝關(guān)節(jié),x/y 表示x/y方向。

    圖5 踝關(guān)節(jié)角度的變化Fig.5 Changes in ankle joint angle

    髖關(guān)節(jié)控制游動腿向前向后擺動,從而影響Atlas 機器人步長的大小。當(dāng)Atlas 機器人游動腿的擺動角越大,說明Atlas 機器人的步長越大,則Atlas 機器人行走越快。由圖6(a)所知,髖關(guān)節(jié)在Atlas 機器人前進方向上的擺動幅度足夠大,說明Atlas 機器人行走快。此外,Atlas 機器人雙腿前后擺動幅度相似,而且雙腿有規(guī)律地前后擺動,這說明Atlas機器人行走也更類人。Atlas 機器人在行走過程中,不僅需要完成直線行走,還需要在行走過程中穩(wěn)定不摔倒。由圖6(b)(c)所知,髖關(guān)節(jié)還可以控制雙腿在冠狀面上擺動。而且左右腿的髖關(guān)節(jié)擺動有規(guī)律,控制Atlas 機器人的左右傾斜,從而影響Atlas 機器人行走的穩(wěn)定性。本文提出的SAC 步態(tài)控制方法控制髖關(guān)節(jié)在影響Atlas 機器人直線行走和穩(wěn)定性的方向上擺動幅度較小,而且左右腿的髖關(guān)節(jié)相互調(diào)節(jié),控制Atlas 機器人直線行走的穩(wěn)定性。最終,本文方法實現(xiàn)了Atlas 機器人穩(wěn)定地直線行走。

    圖6 髖關(guān)節(jié)和膝關(guān)節(jié)的角度變化Fig.6 Changes in angles of hip and knee joints

    3.3 雙足機器人干擾控制與魯棒性分析

    為了評估雙足機器人直線行走的魯棒性,本文參考文獻[28]在兩種不同的情況下向機器人軀干施加外力:1)向前方向施加外力;2)向雙足機器人右側(cè)施加外力。

    值得注意的是,在整個雙足機器人訓(xùn)練過程中沒有向機器人軀干施加任何外力。在訓(xùn)練完成后,使用學(xué)習(xí)到的策略控制雙足機器人在干擾情況下直線行走。

    1)向前方向施加外力。

    由圖7 可知,在時間t=4 s,t=6 s 和t=8 s 時對Atlas 雙足機器人軀干施加大小為15 N 的外力。圖7(a)展示了在施加外力時,雙足機器人速度對比之前的速度有小幅波動,但沒有摔倒。在對雙足機器人施加外力后,雙足機器人速度的穩(wěn)定性很快恢復(fù)。由圖7(b)可知,在對雙足機器人軀干施加外力時,雙足機器人軀干向前傾斜角度增大。在下一時刻,雙足機器人軀干恢復(fù)了一定的向前傾斜角度。

    圖7 向前施加外力時的魯棒性控制Fig.7 Robust control when external forces being applied forward

    2)向雙足機器人右側(cè)施加外力。

    由圖8(a)、(b)可知,在向雙足機器人右側(cè)施加外力時,雙足機器人速度對比之前的速度有小幅波動,但是沒有摔倒;尤其注意的是,雙足機器人左右方向的移動速度。在向雙足機器人右側(cè)施加外力時,雙足機器人控制髖關(guān)節(jié)抑制其向左邊移動,可見雙足機器人左右移動速度波幅漸大。在對雙足機器人施加外力之后,雙足機器人速度的穩(wěn)定性很快恢復(fù)。在圖8(c)中,本文在軀干中線添加一條指示線,當(dāng)施加外力時,軀干向左扭轉(zhuǎn),指示線發(fā)生一定位移。在下一時刻,雙足機器人很快恢復(fù)了軀干的扭轉(zhuǎn)。

    圖8 向雙足機器人右側(cè)施加外力時的魯棒性控制Fig.8 Robust control when external forces being applied to right side of biped robot

    4 結(jié)語

    本文針對雙足機器人連續(xù)直線行走的步態(tài)穩(wěn)定控制問題,提出一種基于深度強化學(xué)習(xí)SAC 的步態(tài)控制方法,該方法是基于最大熵的DRL 算法。它讓策略盡可能隨機,增大智能體的探索空間,避免策略過早地落入局部最優(yōu)點,并且可以探索到多個可行方案完成指定任務(wù),提高抗干擾能力。本文還采用了余弦相似度方法對經(jīng)驗樣本進行分類,優(yōu)化經(jīng)驗回放機制,提高樣本效率。通過知識和經(jīng)驗來設(shè)計多種獎勵函數(shù),提高了雙足機器人的訓(xùn)練速度和雙足機器人快速穩(wěn)定直線行走的能力。通過仿真實驗表明,雙足機器人完成了快速、穩(wěn)定的直線行走,與其他深度強化學(xué)習(xí)算法相比具有較好的穩(wěn)定性。未來工作將進一步優(yōu)化步態(tài)控制方法,更好地控制雙足機器人直線行走的穩(wěn)定性,以及實現(xiàn)雙足機器人在隨機起伏地面的行走。

    猜你喜歡
    策略方法
    基于“選—練—評”一體化的二輪復(fù)習(xí)策略
    求初相φ的常見策略
    例談未知角三角函數(shù)值的求解策略
    我說你做講策略
    學(xué)習(xí)方法
    高中數(shù)學(xué)復(fù)習(xí)的具體策略
    可能是方法不對
    用對方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    賺錢方法
    日日啪夜夜爽| 99久国产av精品国产电影| 色婷婷av一区二区三区视频| 精品人妻一区二区三区麻豆| 国产精品国产av在线观看| 国产深夜福利视频在线观看| 午夜影院在线不卡| 久久毛片免费看一区二区三区| 亚洲人成77777在线视频| 午夜福利网站1000一区二区三区| 亚洲美女视频黄频| 男女国产视频网站| 嫩草影院入口| 热99国产精品久久久久久7| 日韩一区二区三区影片| 一边摸一边做爽爽视频免费| 乱人伦中国视频| 欧美97在线视频| 亚洲男人天堂网一区| 欧美日本中文国产一区发布| 在线观看免费视频网站a站| 亚洲精品久久成人aⅴ小说| 18禁国产床啪视频网站| 国产精品国产av在线观看| 女人久久www免费人成看片| 人体艺术视频欧美日本| 18在线观看网站| 免费观看a级毛片全部| 久久精品亚洲av国产电影网| 日本av免费视频播放| 在线观看免费日韩欧美大片| 一区在线观看完整版| 桃花免费在线播放| 高清av免费在线| 丝袜美足系列| 日韩中文字幕欧美一区二区 | 欧美精品高潮呻吟av久久| 伊人久久国产一区二区| 18禁观看日本| 亚洲美女搞黄在线观看| 亚洲精品国产av蜜桃| 伊人久久大香线蕉亚洲五| 欧美中文综合在线视频| 亚洲人成77777在线视频| 精品酒店卫生间| 成人亚洲精品一区在线观看| 亚洲av日韩在线播放| 日本欧美国产在线视频| av一本久久久久| 中国三级夫妇交换| 寂寞人妻少妇视频99o| 国产精品不卡视频一区二区| 精品99又大又爽又粗少妇毛片| av不卡在线播放| 久久午夜综合久久蜜桃| 亚洲美女视频黄频| 一级,二级,三级黄色视频| 成年人免费黄色播放视频| 国产又爽黄色视频| 国产精品国产三级国产专区5o| 在线观看免费高清a一片| 亚洲综合色网址| 午夜av观看不卡| 中文字幕另类日韩欧美亚洲嫩草| 少妇的逼水好多| 伊人久久大香线蕉亚洲五| 黄色视频在线播放观看不卡| 亚洲综合精品二区| 久久久久久久久免费视频了| 精品久久久久久电影网| 亚洲精品自拍成人| 90打野战视频偷拍视频| 欧美变态另类bdsm刘玥| 一级黄片播放器| 免费观看无遮挡的男女| 啦啦啦在线观看免费高清www| 欧美日韩精品成人综合77777| 满18在线观看网站| 九草在线视频观看| 美女中出高潮动态图| 999久久久国产精品视频| 下体分泌物呈黄色| 久久97久久精品| 激情五月婷婷亚洲| 日日撸夜夜添| 国产精品偷伦视频观看了| 欧美bdsm另类| 国产成人精品婷婷| 欧美日韩一级在线毛片| 中文天堂在线官网| 大陆偷拍与自拍| 伦精品一区二区三区| 国产一区有黄有色的免费视频| 超碰97精品在线观看| 99久国产av精品国产电影| 免费观看无遮挡的男女| 欧美精品av麻豆av| 日韩大片免费观看网站| 男人操女人黄网站| 天天操日日干夜夜撸| 色94色欧美一区二区| 欧美老熟妇乱子伦牲交| 天天影视国产精品| 伊人久久大香线蕉亚洲五| 韩国高清视频一区二区三区| 亚洲欧美清纯卡通| 五月天丁香电影| 麻豆精品久久久久久蜜桃| 欧美人与性动交α欧美软件| 亚洲,一卡二卡三卡| 男女国产视频网站| 777米奇影视久久| 美女国产视频在线观看| 丝袜人妻中文字幕| 久久久久久久久久人人人人人人| 18禁动态无遮挡网站| 国产成人免费无遮挡视频| 大片电影免费在线观看免费| 日本vs欧美在线观看视频| 欧美日韩精品成人综合77777| freevideosex欧美| 大话2 男鬼变身卡| 国产高清不卡午夜福利| 欧美日本中文国产一区发布| 热99久久久久精品小说推荐| 免费少妇av软件| 国产深夜福利视频在线观看| 国产成人一区二区在线| 国产一区二区激情短视频 | 国产精品免费视频内射| 我要看黄色一级片免费的| 99久久综合免费| 人人妻人人添人人爽欧美一区卜| 国产片内射在线| 国产精品免费大片| 十分钟在线观看高清视频www| 视频区图区小说| 亚洲天堂av无毛| 国产黄色免费在线视频| 国产成人精品久久二区二区91 | 婷婷色av中文字幕| 三级国产精品片| 亚洲精品第二区| 欧美日韩av久久| 欧美日韩精品网址| 亚洲伊人色综图| 纯流量卡能插随身wifi吗| 蜜桃国产av成人99| 国产日韩欧美视频二区| 最近2019中文字幕mv第一页| 热99国产精品久久久久久7| 一本久久精品| 国语对白做爰xxxⅹ性视频网站| 美女福利国产在线| 最近中文字幕高清免费大全6| 黄片播放在线免费| 精品第一国产精品| 丰满迷人的少妇在线观看| 国产精品欧美亚洲77777| 亚洲精品国产一区二区精华液| 中国三级夫妇交换| 桃花免费在线播放| 女人精品久久久久毛片| 在线观看免费高清a一片| 国产亚洲最大av| 男女边吃奶边做爰视频| 王馨瑶露胸无遮挡在线观看| 午夜福利影视在线免费观看| 王馨瑶露胸无遮挡在线观看| 丝袜美足系列| 亚洲成人手机| 欧美日韩国产mv在线观看视频| 黄色毛片三级朝国网站| 久久 成人 亚洲| 91精品国产国语对白视频| 男男h啪啪无遮挡| 美女福利国产在线| 毛片一级片免费看久久久久| 亚洲成人手机| 天天躁日日躁夜夜躁夜夜| 午夜福利影视在线免费观看| av电影中文网址| 婷婷色综合www| 亚洲精品国产av成人精品| av电影中文网址| 欧美 亚洲 国产 日韩一| 久久国内精品自在自线图片| 不卡av一区二区三区| 久久精品国产a三级三级三级| av线在线观看网站| 十八禁高潮呻吟视频| 新久久久久国产一级毛片| 女人高潮潮喷娇喘18禁视频| 97在线人人人人妻| 国产日韩欧美在线精品| 久久狼人影院| 赤兔流量卡办理| kizo精华| 亚洲成av片中文字幕在线观看 | 电影成人av| 汤姆久久久久久久影院中文字幕| 亚洲av中文av极速乱| 免费人妻精品一区二区三区视频| 制服诱惑二区| 久久久久精品久久久久真实原创| 精品久久久久久电影网| 亚洲一级一片aⅴ在线观看| 中文字幕色久视频| 2018国产大陆天天弄谢| 国语对白做爰xxxⅹ性视频网站| 国产精品熟女久久久久浪| 日本欧美国产在线视频| 国产精品99久久99久久久不卡 | 老司机亚洲免费影院| 欧美日韩av久久| 日韩中文字幕欧美一区二区 | 超色免费av| 精品亚洲成a人片在线观看| 波多野结衣av一区二区av| 日韩电影二区| 宅男免费午夜| 久久鲁丝午夜福利片| 亚洲av电影在线进入| 国产免费福利视频在线观看| 天天躁夜夜躁狠狠久久av| 国产精品成人在线| 久久精品国产自在天天线| 熟女少妇亚洲综合色aaa.| 色播在线永久视频| 夜夜骑夜夜射夜夜干| 曰老女人黄片| 日韩中文字幕欧美一区二区 | 亚洲精品久久久久久婷婷小说| 国产熟女午夜一区二区三区| 菩萨蛮人人尽说江南好唐韦庄| 十分钟在线观看高清视频www| 有码 亚洲区| 亚洲情色 制服丝袜| 男男h啪啪无遮挡| 久久久久网色| 国产日韩欧美视频二区| 精品99又大又爽又粗少妇毛片| 天天躁狠狠躁夜夜躁狠狠躁| 热99久久久久精品小说推荐| 黄色一级大片看看| 黄频高清免费视频| 欧美亚洲 丝袜 人妻 在线| 搡女人真爽免费视频火全软件| 国产男人的电影天堂91| 一二三四在线观看免费中文在| 久久久久精品性色| 久久久久久免费高清国产稀缺| 国产乱人偷精品视频| 国产淫语在线视频| 不卡视频在线观看欧美| 国产精品av久久久久免费| 一级片免费观看大全| 精品国产乱码久久久久久小说| 精品久久蜜臀av无| 久久久久人妻精品一区果冻| 综合色丁香网| 夜夜骑夜夜射夜夜干| 亚洲精品在线美女| 欧美精品av麻豆av| av在线播放精品| www日本在线高清视频| 超碰97精品在线观看| 老女人水多毛片| 尾随美女入室| 国产av码专区亚洲av| 精品国产乱码久久久久久小说| 国产高清国产精品国产三级| 热re99久久国产66热| 中文字幕亚洲精品专区| 青春草视频在线免费观看| 不卡视频在线观看欧美| 在线看a的网站| 哪个播放器可以免费观看大片| 亚洲一级一片aⅴ在线观看| 两个人看的免费小视频| 久久精品国产综合久久久| 在线免费观看不下载黄p国产| 18禁观看日本| 人妻 亚洲 视频| a级片在线免费高清观看视频| 女人久久www免费人成看片| 欧美精品人与动牲交sv欧美| 视频区图区小说| 国产精品 欧美亚洲| 亚洲国产欧美网| 97精品久久久久久久久久精品| 99久久人妻综合| 另类亚洲欧美激情| 最近中文字幕2019免费版| 大香蕉久久成人网| 777米奇影视久久| 中文字幕av电影在线播放| 欧美精品亚洲一区二区| 国产一区有黄有色的免费视频| 久久精品国产亚洲av涩爱| 国产女主播在线喷水免费视频网站| 亚洲天堂av无毛| 国产精品三级大全| 丰满少妇做爰视频| 亚洲av综合色区一区| 精品一品国产午夜福利视频| 亚洲成色77777| 亚洲人成电影观看| 大码成人一级视频| 卡戴珊不雅视频在线播放| 精品少妇一区二区三区视频日本电影 | 中文字幕亚洲精品专区| 午夜免费观看性视频| 色网站视频免费| 亚洲天堂av无毛| 免费av中文字幕在线| 春色校园在线视频观看| 亚洲精品中文字幕在线视频| 男人添女人高潮全过程视频| 日韩熟女老妇一区二区性免费视频| 久久久久精品久久久久真实原创| 亚洲情色 制服丝袜| av女优亚洲男人天堂| 国产在线一区二区三区精| 黄片小视频在线播放| 制服丝袜香蕉在线| 精品一区二区三区四区五区乱码 | 狂野欧美激情性bbbbbb| 久久久a久久爽久久v久久| 国产一区二区激情短视频 | 日韩av不卡免费在线播放| 亚洲一级一片aⅴ在线观看| 中文字幕av电影在线播放| 青春草国产在线视频| 精品久久久精品久久久| 欧美日韩视频精品一区| 国产成人精品婷婷| 性色avwww在线观看| 狠狠精品人妻久久久久久综合| 黄片小视频在线播放| 欧美精品人与动牲交sv欧美| 日韩大片免费观看网站| 卡戴珊不雅视频在线播放| 亚洲av综合色区一区| 国产不卡av网站在线观看| 亚洲精品日韩在线中文字幕| 一二三四中文在线观看免费高清| 激情视频va一区二区三区| 热99久久久久精品小说推荐| 成人毛片60女人毛片免费| 日韩一卡2卡3卡4卡2021年| 啦啦啦视频在线资源免费观看| 妹子高潮喷水视频| 赤兔流量卡办理| 纵有疾风起免费观看全集完整版| 一本色道久久久久久精品综合| 18禁裸乳无遮挡动漫免费视频| 91精品国产国语对白视频| 999精品在线视频| 高清视频免费观看一区二区| 久久久久久久久久久久大奶| 国产一区亚洲一区在线观看| 性色avwww在线观看| av线在线观看网站| videosex国产| 免费在线观看黄色视频的| 看免费av毛片| 亚洲av综合色区一区| 欧美+日韩+精品| 亚洲一区二区三区欧美精品| 少妇的丰满在线观看| 午夜老司机福利剧场| 十八禁高潮呻吟视频| 亚洲av电影在线进入| 丰满迷人的少妇在线观看| 欧美成人精品欧美一级黄| 高清视频免费观看一区二区| av在线观看视频网站免费| 搡老乐熟女国产| 中文乱码字字幕精品一区二区三区| 精品亚洲成a人片在线观看| 叶爱在线成人免费视频播放| 菩萨蛮人人尽说江南好唐韦庄| 毛片一级片免费看久久久久| 自线自在国产av| 久久女婷五月综合色啪小说| 久久久精品国产亚洲av高清涩受| av卡一久久| 亚洲国产精品国产精品| 亚洲成人av在线免费| 女人精品久久久久毛片| 最近手机中文字幕大全| 韩国精品一区二区三区| 五月开心婷婷网| 亚洲av成人精品一二三区| 最近中文字幕高清免费大全6| 国产成人欧美| 国产在线免费精品| 日韩伦理黄色片| 丰满少妇做爰视频| 日本黄色日本黄色录像| 国产熟女午夜一区二区三区| 亚洲,一卡二卡三卡| 女人高潮潮喷娇喘18禁视频| 母亲3免费完整高清在线观看 | 国产人伦9x9x在线观看 | 亚洲欧美一区二区三区黑人 | 在线观看人妻少妇| 成年美女黄网站色视频大全免费| 午夜激情久久久久久久| 国产精品免费视频内射| 亚洲国产精品999| av福利片在线| 午夜福利影视在线免费观看| 天天影视国产精品| 老司机影院毛片| freevideosex欧美| 搡老乐熟女国产| 天天躁日日躁夜夜躁夜夜| 亚洲少妇的诱惑av| 男女免费视频国产| 免费av中文字幕在线| 啦啦啦啦在线视频资源| 成年人免费黄色播放视频| 极品人妻少妇av视频| 一本大道久久a久久精品| 久久婷婷青草| 亚洲精品,欧美精品| 高清不卡的av网站| 国产欧美日韩一区二区三区在线| 久久精品人人爽人人爽视色| 青春草亚洲视频在线观看| 久久久久久人人人人人| 久久女婷五月综合色啪小说| 精品久久蜜臀av无| 少妇 在线观看| 国产在线视频一区二区| 国产一区二区在线观看av| 大片免费播放器 马上看| 国产成人精品一,二区| 久久久亚洲精品成人影院| 黄片播放在线免费| 欧美成人午夜免费资源| 国产有黄有色有爽视频| 国产精品 欧美亚洲| 婷婷色av中文字幕| 亚洲av电影在线进入| 久久久国产一区二区| 97精品久久久久久久久久精品| 亚洲欧美成人精品一区二区| av免费观看日本| 午夜福利影视在线免费观看| 考比视频在线观看| 少妇被粗大猛烈的视频| 亚洲欧美一区二区三区久久| 午夜福利乱码中文字幕| 观看av在线不卡| www.自偷自拍.com| 国产精品久久久久久精品古装| 波野结衣二区三区在线| 啦啦啦在线观看免费高清www| 欧美成人午夜精品| 国产成人精品在线电影| 午夜激情久久久久久久| 亚洲av综合色区一区| 一级毛片黄色毛片免费观看视频| 欧美少妇被猛烈插入视频| 欧美亚洲日本最大视频资源| 欧美日韩综合久久久久久| √禁漫天堂资源中文www| 国产欧美日韩一区二区三区在线| 亚洲熟女精品中文字幕| 秋霞在线观看毛片| 久久精品人人爽人人爽视色| 免费日韩欧美在线观看| 久久av网站| 日韩一卡2卡3卡4卡2021年| 水蜜桃什么品种好| 精品国产一区二区三区久久久樱花| 国产激情久久老熟女| 成人二区视频| av.在线天堂| 伦理电影免费视频| 99久久人妻综合| 亚洲精品自拍成人| av电影中文网址| 午夜福利,免费看| 成人国产av品久久久| 午夜免费观看性视频| 欧美日韩一级在线毛片| 中文乱码字字幕精品一区二区三区| 亚洲在久久综合| 777米奇影视久久| 欧美成人精品欧美一级黄| a级毛片在线看网站| 国产精品久久久久久av不卡| 日韩电影二区| 亚洲欧洲国产日韩| 精品少妇一区二区三区视频日本电影 | 自拍欧美九色日韩亚洲蝌蚪91| 水蜜桃什么品种好| videosex国产| 伦理电影免费视频| 高清在线视频一区二区三区| 18在线观看网站| 国语对白做爰xxxⅹ性视频网站| 尾随美女入室| 十分钟在线观看高清视频www| 久久精品久久久久久久性| 国产成人精品久久久久久| av国产精品久久久久影院| 在线观看免费视频网站a站| 国产精品秋霞免费鲁丝片| 亚洲精品第二区| 狠狠婷婷综合久久久久久88av| 久久热在线av| 日韩视频在线欧美| 亚洲美女视频黄频| 麻豆精品久久久久久蜜桃| 天堂中文最新版在线下载| 免费观看无遮挡的男女| 18+在线观看网站| 成年女人毛片免费观看观看9 | 色视频在线一区二区三区| 成年动漫av网址| 桃花免费在线播放| 国产精品蜜桃在线观看| av在线观看视频网站免费| 一级a爱视频在线免费观看| 亚洲中文av在线| 成人影院久久| 日韩视频在线欧美| 日韩制服骚丝袜av| 老汉色∧v一级毛片| freevideosex欧美| 人妻少妇偷人精品九色| 午夜福利在线免费观看网站| 七月丁香在线播放| 欧美日韩av久久| 欧美最新免费一区二区三区| 中国三级夫妇交换| 三级国产精品片| 电影成人av| 五月天丁香电影| 叶爱在线成人免费视频播放| 国产av国产精品国产| 亚洲精品一二三| 欧美中文综合在线视频| 一个人免费看片子| 精品一区二区三区四区五区乱码 | 亚洲精华国产精华液的使用体验| 日韩三级伦理在线观看| 亚洲伊人色综图| 久久精品久久久久久噜噜老黄| 天堂俺去俺来也www色官网| 欧美日韩成人在线一区二区| 777久久人妻少妇嫩草av网站| 狠狠婷婷综合久久久久久88av| 91精品国产国语对白视频| 99国产精品免费福利视频| av天堂久久9| 两个人免费观看高清视频| 自拍欧美九色日韩亚洲蝌蚪91| 成年女人在线观看亚洲视频| 只有这里有精品99| 丝袜脚勾引网站| 国产福利在线免费观看视频| 亚洲欧美一区二区三区久久| 国产精品.久久久| av在线播放精品| 久久精品国产亚洲av涩爱| 美女xxoo啪啪120秒动态图| 国产午夜精品一二区理论片| 亚洲精品国产一区二区精华液| 国产一区有黄有色的免费视频| 精品一区二区免费观看| 国产爽快片一区二区三区| 美女主播在线视频| 香蕉精品网在线| 一区在线观看完整版| 亚洲成人一二三区av| 街头女战士在线观看网站| 黄网站色视频无遮挡免费观看| 一级片免费观看大全| 久久久久精品性色| 永久免费av网站大全| 欧美国产精品va在线观看不卡| 日本免费在线观看一区| av电影中文网址| 精品国产乱码久久久久久男人| 性色avwww在线观看| 人体艺术视频欧美日本| av国产久精品久网站免费入址| 性高湖久久久久久久久免费观看| 啦啦啦在线免费观看视频4| 国产欧美亚洲国产| xxxhd国产人妻xxx| 在线精品无人区一区二区三| 午夜免费鲁丝| 亚洲国产日韩一区二区| 啦啦啦在线免费观看视频4| 大香蕉久久网| 久久97久久精品| 波野结衣二区三区在线| 美女国产高潮福利片在线看| 国产黄频视频在线观看| 婷婷成人精品国产| 日本午夜av视频| 国产精品久久久久久久久免| 99香蕉大伊视频| 免费黄网站久久成人精品| 精品一区二区三区四区五区乱码 | 九草在线视频观看| 在线观看免费高清a一片| 国产男女超爽视频在线观看|