• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于路徑模仿和SAC強(qiáng)化學(xué)習(xí)的機(jī)械臂路徑規(guī)劃算法

    2024-03-21 02:24:38宋紫陽(yáng)李軍懷王懷軍
    計(jì)算機(jī)應(yīng)用 2024年2期
    關(guān)鍵詞:機(jī)械規(guī)劃策略

    宋紫陽(yáng),李軍懷,2,王懷軍,2*,蘇 鑫,于 蕾,2

    (1.西安理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,西安 710048;2.陜西省網(wǎng)絡(luò)計(jì)算與安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,西安 710048)

    0 引言

    工業(yè)機(jī)器人的規(guī)?;瘧?yīng)用提高了工業(yè)和制造業(yè)等行業(yè)的生產(chǎn)效率。機(jī)械臂是機(jī)器人的主要形式之一,通過運(yùn)動(dòng)副的轉(zhuǎn)動(dòng)或移動(dòng)使機(jī)械臂末端運(yùn)動(dòng)到合適的位置和姿態(tài),完成不同的工作任務(wù)。機(jī)械臂具有較高的自由度,能部署在不同場(chǎng)景下,快速執(zhí)行作業(yè)任務(wù)。機(jī)器學(xué)習(xí)(Machine Learning)技術(shù)可以提高機(jī)器人的智能化水平,讓機(jī)器人擁有自主決策與學(xué)習(xí)能力,在機(jī)器人軌跡路徑規(guī)劃[1-2]、環(huán)境感知[3-4]和智能決策與控制[5-6]等方向都有應(yīng)用。強(qiáng)化學(xué)習(xí)克服了傳統(tǒng)機(jī)械臂控制方法對(duì)環(huán)境狀態(tài)變化適應(yīng)能力差的缺點(diǎn),成為機(jī)械臂智能化研究的重要方向[7-8]。

    目前,基于強(qiáng)化學(xué)習(xí)的機(jī)械臂路徑規(guī)劃面臨兩個(gè)問題:1)機(jī)械臂的動(dòng)作維度高、環(huán)境狀態(tài)復(fù)雜,強(qiáng)化學(xué)習(xí)面對(duì)海量的狀態(tài)數(shù)量和動(dòng)作數(shù)量較難進(jìn)行價(jià)值評(píng)估;2)獎(jiǎng)勵(lì)稀疏的問題,即當(dāng)機(jī)械臂到達(dá)指定位置時(shí)才能得到獎(jiǎng)勵(lì),導(dǎo)致訓(xùn)練時(shí)間長(zhǎng),效果較差。

    在基于強(qiáng)化學(xué)習(xí)的機(jī)械臂路徑或軌跡規(guī)劃等方面,國(guó)內(nèi)外學(xué)者已經(jīng)有了一定的研究成果。

    基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的機(jī)械臂路徑規(guī)劃。DRL 使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)近似價(jià)值函數(shù)或策略函數(shù),較好地解決了環(huán)境狀態(tài)與動(dòng)作維度高、數(shù)量龐大,數(shù)據(jù)特征難以在有限的計(jì)算機(jī)內(nèi)存中存儲(chǔ)、計(jì)算和表達(dá)等問題。谷歌公司的DeepMind 團(tuán)隊(duì)[9]改進(jìn)了DQN(Deep Q-Network)方法,提出了具有競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)的DQN 方法(Dueling DQN),提高了DNN對(duì)價(jià)值函數(shù)擬合的準(zhǔn)確性,但在面對(duì)連續(xù)控制問題時(shí)無法得到最優(yōu)控制策略。Gu 等[10]提出歸一化優(yōu)勢(shì)函數(shù)(Normalized Advantage Functions,NAF)方法,在DQN 的基礎(chǔ)上拓展了對(duì)連續(xù)控制問題的支持。Prianto 等[11]為了解決高維路徑規(guī)劃問題,提出了基于SAC(Soft Actor-Critic)的路徑規(guī)劃算法,為了有效處理構(gòu)型空間中的多臂問題,擴(kuò)充了各臂的構(gòu)型空間,采用后見經(jīng)驗(yàn)重放(Hindsight Experience Replay,HER)方法提高樣本效率,可以實(shí)時(shí)、快速地生成任意起始點(diǎn)和目標(biāo)點(diǎn)的最短路徑。本文在文獻(xiàn)[11]的基礎(chǔ)上,設(shè)計(jì)特殊的獎(jiǎng)勵(lì)函數(shù)指導(dǎo)智能體學(xué)習(xí)如何選擇最優(yōu)行為,進(jìn)一步擴(kuò)展SAC強(qiáng)化學(xué)習(xí)的Critic 部分,采用兩個(gè)Q 網(wǎng)絡(luò)和兩個(gè)目標(biāo)Q 網(wǎng)絡(luò)對(duì)機(jī)械臂的路徑規(guī)劃設(shè)計(jì)進(jìn)行優(yōu)化,以達(dá)到更快速?gòu)?qiáng)化學(xué)習(xí)的目的。張永梅等[12]基于DRL 算法對(duì)連續(xù)型動(dòng)作輸出的端到端機(jī)器人路徑規(guī)劃進(jìn)行研究,提出了內(nèi)在好奇心驅(qū)動(dòng)的深度確定性策略梯度算法,實(shí)現(xiàn)了端到端的機(jī)器人路徑規(guī)劃,有利于解決訓(xùn)練前期獎(jiǎng)勵(lì)難獲取問題。

    自從模仿學(xué)習(xí)被提出,它已被應(yīng)用于機(jī)械臂路徑規(guī)劃。模仿學(xué)習(xí)被用于結(jié)合深度學(xué)習(xí)訓(xùn)練機(jī)械臂路徑控制模型,或與強(qiáng)化學(xué)習(xí)結(jié)合訓(xùn)練得到路徑規(guī)劃的最優(yōu)策略。于建均等[13]通過拖動(dòng)機(jī)械臂的方式得到示教路徑,基于模仿學(xué)習(xí)和DNN 實(shí)現(xiàn)機(jī)械臂對(duì)示教路徑的快速學(xué)習(xí),解決了機(jī)械臂動(dòng)作規(guī)劃編程復(fù)雜的問題。Rahmatizadeh 等[14]結(jié)合了長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)和混合密度網(wǎng)絡(luò)(Mixture Density Network,MDN)作為機(jī)械臂的控制器,基于深度相機(jī)Kinect 獲取示教路徑,通過模仿學(xué)習(xí)使機(jī)械臂合理規(guī)劃路徑完成物品的拾取和放置。加州大學(xué)Finn 等[15]使用逆最優(yōu)控制(Inverse Optimal Control,IOC)訓(xùn)練機(jī)械臂路徑規(guī)劃,通過優(yōu)化獎(jiǎng)勵(lì)函數(shù)引導(dǎo)價(jià)值對(duì)示教路徑進(jìn)行模仿學(xué)習(xí),使機(jī)械臂學(xué)會(huì)了合理規(guī)劃路徑擺放盤子。使用示教路徑優(yōu)化獎(jiǎng)勵(lì)函數(shù)可以對(duì)智能體在訓(xùn)練過程中策略輸出的動(dòng)作作出更好的評(píng)價(jià)。湯自林等[16]基于模仿學(xué)習(xí)提出了變剛度協(xié)作搬運(yùn)控制策略,使用任務(wù)參數(shù)化的高斯混合模型(Task Parameterized Gaussian Mixture Model,TP-GMM)對(duì)示教路徑編碼,學(xué)習(xí)不同搬運(yùn)工況下的搬運(yùn)軌跡概率模型,提高了特定搬運(yùn)任務(wù)的終點(diǎn)位置精度。

    合理的機(jī)械臂運(yùn)動(dòng)路徑是機(jī)械臂系統(tǒng)實(shí)現(xiàn)運(yùn)動(dòng)控制功能和完成任務(wù)的基礎(chǔ),本文提出一種基于路徑模仿和SAC 強(qiáng)化學(xué)習(xí)的機(jī)械臂路徑規(guī)劃算法。通過將機(jī)械臂末端的示教路徑和實(shí)際路徑融入獎(jiǎng)勵(lì)函數(shù),使機(jī)械臂在強(qiáng)化學(xué)習(xí)過程中模仿示教路徑糾正實(shí)際路徑,提高學(xué)習(xí)效率,選擇SAC 算法作為強(qiáng)化學(xué)習(xí)方法使訓(xùn)練收斂更快且更穩(wěn)定。

    1 機(jī)械臂路徑規(guī)劃基本原理

    針對(duì)強(qiáng)化學(xué)習(xí)在機(jī)械臂路徑規(guī)劃中獎(jiǎng)勵(lì)稀疏難以收斂的問題,引入對(duì)參考路徑的模仿學(xué)習(xí),根據(jù)機(jī)械臂運(yùn)行的實(shí)際路徑與參考路徑的差異設(shè)計(jì)適當(dāng)?shù)莫?jiǎng)勵(lì)方式,實(shí)現(xiàn)快速?gòu)?qiáng)化學(xué)習(xí)的目的?;谀7聦W(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)控制方法可分為示教路徑的獲取和示教路徑的學(xué)習(xí)兩個(gè)階段。將手拖動(dòng)機(jī)械臂所檢測(cè)到的手部路徑作為示教路徑,在人拖動(dòng)機(jī)械臂的過程中,機(jī)械臂通過編碼器獲取關(guān)節(jié)角度后通過正運(yùn)動(dòng)學(xué)方法解出機(jī)械臂的末端路徑,將末端路徑作為示教對(duì)象。基于SAC 強(qiáng)化學(xué)習(xí)的機(jī)械臂路徑規(guī)劃算法原理如圖1 所示。

    圖1 機(jī)械臂路徑規(guī)劃算法原理Fig.1 Principle of manipulator path planning algorithm

    SAC 算法基于Actor-Critic 框架,使用了5 個(gè)DNN 和1 個(gè)經(jīng)驗(yàn)回放池完成強(qiáng)化學(xué)習(xí)任務(wù)。5 個(gè)DNN 分為兩組:一組包含一個(gè)策略網(wǎng)絡(luò),是SAC 強(qiáng)化學(xué)習(xí)算法的Actor 部分;另一組包含兩個(gè)Q 網(wǎng)絡(luò)和兩個(gè)目標(biāo)Q 網(wǎng)絡(luò),是SAC 強(qiáng)化學(xué)習(xí)的Critic 部分。獎(jiǎng)勵(lì)函數(shù)根據(jù)實(shí)際路徑和參考路徑的距離來計(jì)算獎(jiǎng)勵(lì)或者懲罰。SAC 算法將機(jī)械臂狀態(tài)和獎(jiǎng)勵(lì)函數(shù)的輸出作為輸入,向機(jī)械臂反饋下一步的動(dòng)作。

    2 路徑模仿的獎(jiǎng)勵(lì)函數(shù)計(jì)算方法

    機(jī)械臂SmallRobotArm 選擇六自由度,機(jī)械臂末端連接一個(gè)電磁鐵。設(shè)定機(jī)械臂路徑規(guī)劃任務(wù)為拾取硬幣并將硬幣置入杯中。獎(jiǎng)勵(lì)函數(shù)根據(jù)機(jī)械臂的當(dāng)前狀態(tài)st和下一步要執(zhí)行的動(dòng)作at計(jì)算機(jī)械臂的任務(wù)完成度,根據(jù)任務(wù)完成度和機(jī)械臂末端與參考路徑的距離計(jì)算獎(jiǎng)勵(lì)或者懲罰,誘導(dǎo)機(jī)械臂學(xué)習(xí)參考路徑。

    1)機(jī)械臂狀態(tài)模型。

    在機(jī)械臂路徑規(guī)劃任務(wù)背景下定義環(huán)境狀態(tài),t時(shí)刻的狀態(tài)st∈S是一個(gè)四元組:st=(post,quatt,c,w),其中post表示t時(shí)刻時(shí)機(jī)械臂末端 在空間中的位 置:post=(xt,ypt,zpt),quatt表示機(jī)械臂末端效應(yīng)器在空間中的姿態(tài)角:quatt=(wqt,xqt,yqt,zqt),c表示硬幣在空間中的位置,w表示水杯在空間中的位置。

    2)機(jī)械臂動(dòng)作模型。

    機(jī)械臂的動(dòng)作at∈A由 3 個(gè)部分構(gòu)成 :at=(ΔPt,ΔOt,gt),ΔPt和ΔOt的表達(dá)式分別為ΔPt=(Δxpt,Δypt,Δzpt),ΔOt=(Δxot,Δyot,Δzot),其中ΔPt表示機(jī)械臂末端在t時(shí)刻移動(dòng)位移的向量,ΔOt表示機(jī)械臂末端在t時(shí)刻的轉(zhuǎn)動(dòng)姿態(tài)角,gt表示機(jī)械臂末端的電磁鐵在t時(shí)刻是否接通了電源。

    3)獎(jiǎng)勵(lì)函數(shù)模型。

    獎(jiǎng)勵(lì)函數(shù)反映了在狀態(tài)st下進(jìn)行動(dòng)作at的獎(jiǎng)勵(lì)的預(yù)期,可表示為:

    由于系統(tǒng)狀態(tài)空間大,很難為所有狀態(tài)設(shè)置獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)稀疏的問題導(dǎo)致學(xué)習(xí)緩慢甚至無法學(xué)習(xí)。為了使機(jī)械臂能快速學(xué)習(xí)針對(duì)任務(wù)的最優(yōu)路徑,通過特殊設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)使機(jī)械臂對(duì)參考路徑模仿學(xué)習(xí),提高機(jī)械臂路徑規(guī)劃的學(xué)習(xí)速度和任務(wù)執(zhí)行成功率。

    將用手拖動(dòng)機(jī)械臂獲得的末端路徑作為機(jī)械臂學(xué)習(xí)的參考路徑,參考路徑如圖1 所示。

    定義機(jī)械臂在t時(shí)刻的任務(wù)完成度為pt:

    根據(jù)任務(wù)要求,獎(jiǎng)勵(lì)或懲罰可分成3 種情況:

    ①若機(jī)械臂完成將硬幣置入水杯中的任務(wù)可得到最大獎(jiǎng)勵(lì);未完成任務(wù)時(shí)不獎(jiǎng)勵(lì)。

    ②當(dāng)機(jī)械臂末端沿著參考路徑的方向運(yùn)動(dòng)時(shí)得到獎(jiǎng)勵(lì);當(dāng)機(jī)械臂沿著參考路徑的反方向運(yùn)動(dòng)時(shí)獎(jiǎng)勵(lì)值為負(fù),即受到懲罰。

    ③機(jī)械臂末端與參考路徑的距離越近受到獎(jiǎng)勵(lì)越大;距離過遠(yuǎn)則會(huì)受到懲罰,距離越遠(yuǎn)懲罰越大。

    根據(jù)上述分析,執(zhí)行動(dòng)作at后的獎(jiǎng)勵(lì)為:

    其中:Δd表示機(jī)械臂末端位置與參考路徑之間的距離;β為控制機(jī)械臂末端偏離參考路徑時(shí)受到獎(jiǎng)勵(lì)或懲罰的比例系數(shù);η為參考路徑獎(jiǎng)勵(lì)半徑,當(dāng)機(jī)械臂末端在η內(nèi)時(shí)會(huì)得到獎(jiǎng)勵(lì),否則會(huì)受到懲罰。

    在強(qiáng)化學(xué)習(xí)中,這種獎(jiǎng)勵(lì)機(jī)制可以誘導(dǎo)機(jī)械臂學(xué)習(xí)參考路徑,使策略更快收斂,提高學(xué)習(xí)效率。

    3 機(jī)械臂路徑規(guī)劃算法

    SAC 是一種基于Actor-Critic 無模型強(qiáng)化學(xué)習(xí)框架,它融合了最大熵思想,在獲得高回報(bào)的同時(shí),也具有較強(qiáng)的探索能力和較高的魯棒性[17]。結(jié)合獎(jiǎng)勵(lì)算法和SAC 強(qiáng)化學(xué)習(xí)方法,可以用獎(jiǎng)勵(lì)函數(shù)指導(dǎo)智能體學(xué)習(xí)如何選擇最優(yōu)行為,同時(shí)使用SAC 訓(xùn)練智能體,使它根據(jù)定義的獎(jiǎng)勵(lì)函數(shù)和狀態(tài)選擇合適的動(dòng)作。通過設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù),智能體可以學(xué)習(xí)如何選擇最優(yōu)路徑,使得機(jī)器人準(zhǔn)確到達(dá)目標(biāo)點(diǎn)。

    綜上所述,將獎(jiǎng)勵(lì)算法和SAC 強(qiáng)化學(xué)習(xí)算法結(jié)合,可以構(gòu)建一種新的路徑規(guī)劃算法,使得機(jī)器人能夠根據(jù)環(huán)境狀態(tài)動(dòng)態(tài)地選擇最優(yōu)路徑,具有較高的適應(yīng)性和魯棒性。

    3.1 最大熵策略

    SAC 強(qiáng)化學(xué)習(xí)算法可以探索更多情況,以提高學(xué)習(xí)速度,且避免陷入局部最優(yōu)解,在獲得的最大回報(bào)和隨機(jī)性探索之間尋找一種平衡,使策略可以兼顧預(yù)期回報(bào)與最大熵。在SAC 中,最優(yōu)策略表示為:

    其中:R是獎(jiǎng)勵(lì);H為熵;E 表示求獎(jiǎng)勵(lì)和熵的期望;α是溫度系數(shù),決定了熵值相較于獎(jiǎng)勵(lì)的比重,調(diào)整α可以控制最優(yōu)策略的探索隨機(jī)性。H的計(jì)算式為:

    熵值的大小反映了策略π(?|st)的隨機(jī)程度,在熵較大時(shí),機(jī)械臂在價(jià)值相近的動(dòng)作中隨機(jī)選取一個(gè)執(zhí)行。

    在SAC 算法中,最大熵是策略的目標(biāo)之一,因此用于表示預(yù)期回報(bào)的V 函數(shù)和Q 函數(shù)中的熵是獎(jiǎng)勵(lì)的一部分,被稱為軟性狀態(tài)價(jià)值函數(shù)(軟性V 函數(shù))和軟性動(dòng)作價(jià)值函數(shù)(軟性Q 函數(shù))[18],分別表示為:

    軟性Q 函數(shù)的貝爾曼方程形式表示為:

    軟性Q 函數(shù)和軟性V 函數(shù)的更新式為:

    通過對(duì)式(9)~(10)不斷迭代,Q 函數(shù)的輸出將逐漸收斂至最優(yōu)Q值。

    3.2 基于能量模型的策略

    SAC 算法對(duì)AC 策略的更新方式進(jìn)行了改進(jìn)。在SAC 算法訓(xùn)練的過程中,策略向著軟性Q 函數(shù)的指數(shù)方向更新:

    在強(qiáng)化學(xué)習(xí)場(chǎng)景下,軟性Q 函數(shù)若是多峰,則代表問題的解不唯一。面對(duì)有多個(gè)最優(yōu)解或存在次優(yōu)解時(shí),基于能量模型的策略分布使算法可對(duì)所有可行的解進(jìn)行學(xué)習(xí)。當(dāng)環(huán)境發(fā)生變化,之前的最優(yōu)解行不通時(shí),基于能量模型的策略分布可以迅速調(diào)整策略得到新的解。對(duì)于SAC 算法,最優(yōu)策略的形式如下:

    3.3 SAC強(qiáng)化學(xué)習(xí)算法

    本文引入兩個(gè)結(jié)構(gòu)相同的Q 網(wǎng)絡(luò)同時(shí)訓(xùn)練,每次迭代時(shí)選擇較小的Q 值更新策略網(wǎng)絡(luò),防止對(duì)動(dòng)作價(jià)值估計(jì)過高[19]。Target-Q 網(wǎng)絡(luò)在每次迭代中進(jìn)行軟更新,網(wǎng)絡(luò)參數(shù)的變化較為平緩。使用第2 章所述的基于路徑模仿的獎(jiǎng)勵(lì)函數(shù),誘導(dǎo)機(jī)械臂學(xué)習(xí)參考路徑。

    本文算法的框架如圖2 所示。策略網(wǎng)絡(luò)將來自環(huán)境的狀態(tài)s作為輸入,有13 個(gè)參數(shù),輸出動(dòng)作a,共8 個(gè)參數(shù),隱藏層是5 個(gè)全連接層,每層512 個(gè)神經(jīng)元,使用Leaky ReLU[20]和Tanh 分別作為隱藏層和輸出層的激活函數(shù)。

    圖2 本文算法的框架Fig.2 Framework of proposed algorithm

    設(shè)策略網(wǎng)絡(luò)參數(shù)為φ,損失函數(shù)為:

    其中:D表示經(jīng)驗(yàn)回放池,獎(jiǎng)勵(lì)函數(shù)根據(jù)任務(wù)完成度和機(jī)械臂末端與參考路徑的距離計(jì)算出獎(jiǎng)勵(lì),并且存到經(jīng)驗(yàn)回放池,經(jīng)驗(yàn)回放池將狀態(tài)、轉(zhuǎn)換后的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)(st,at,st+1,Rt+1)作為Q 網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)來源。α為溫度參數(shù),隨著狀態(tài)的變化而自動(dòng)調(diào)節(jié),面對(duì)探索過的環(huán)境狀態(tài),應(yīng)當(dāng)減小溫度參數(shù)令熵減小,而面對(duì)未知狀態(tài)應(yīng)當(dāng)增大溫度參數(shù),增強(qiáng)策略探索的隨機(jī)性。溫度參數(shù)α自動(dòng)調(diào)節(jié)過程可表示為:

    4 個(gè)Q 網(wǎng)絡(luò)結(jié)構(gòu)完全相同,它們的輸入為狀態(tài)s和策略網(wǎng)絡(luò)輸出的動(dòng)作a,共21 個(gè)參數(shù),輸出單個(gè)參數(shù)即Q 值,隱藏層為3 個(gè)全連接層,每層512 個(gè)神經(jīng)元,使用Leaky ReLU 作為激活函數(shù)。設(shè)Q 網(wǎng)絡(luò)的參數(shù)為θ,損失函數(shù):

    其中:τ值大于0 但遠(yuǎn)小于1。

    SAC 算法的偽代碼如算法1 所示。

    算法1 SAC 算法。

    4 實(shí)驗(yàn)與結(jié)果分析

    本章通過實(shí)驗(yàn)展示本文算法的實(shí)際效果,驗(yàn)證該算法在解決實(shí)際任務(wù)問題中的可行性,通過對(duì)比實(shí)驗(yàn)驗(yàn)證該算法相較于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)強(qiáng)化學(xué)習(xí)算法[21]訓(xùn)練速度更快且成功率更高。

    4.1 實(shí)驗(yàn)環(huán)境

    強(qiáng)化學(xué)習(xí)環(huán)境基于Unity ML-Agents 工具包搭建,使用Python 實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法,使用TensorFlow 構(gòu)建深度網(wǎng)絡(luò)。

    實(shí)驗(yàn)場(chǎng)景如圖3 所示,機(jī)械臂放置在桌面上,機(jī)械臂前方擺放一個(gè)硬幣和一個(gè)杯子,首先機(jī)械臂末端移動(dòng)到硬幣上方,通過電磁鐵將硬幣拾起,再將硬幣置入杯子中。

    圖3 機(jī)械臂路徑規(guī)劃訓(xùn)練場(chǎng)景Fig.3 Training scene of manipulator path planning

    4.2 實(shí)驗(yàn)結(jié)果與分析

    為驗(yàn)證本文算法的訓(xùn)練速度和效果,另外設(shè)置一組路徑模仿算法作為對(duì)比。將通過用手拖動(dòng)機(jī)械臂得到的路徑作為參考路徑。兩種算法如下:

    本文算法基于路徑模仿和SAC 算法。獎(jiǎng)勵(lì)函數(shù)如第2章所述,智能體所受到的獎(jiǎng)勵(lì)和懲罰與是否完成任務(wù)以及對(duì)參考路徑的學(xué)習(xí)程度有關(guān),SAC 強(qiáng)化學(xué)習(xí)算法能較好地對(duì)環(huán)境進(jìn)行探索,提高學(xué)習(xí)速度。

    基于路徑模仿和DDPG 算法。DDPG 算法與SAC 算法同屬于Actor-Critic 框架,不同的是DDPG 算法是直接選取概率最大的動(dòng)作去執(zhí)行。DDPG 算法包含4 個(gè)神經(jīng)網(wǎng)絡(luò):策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、Q 網(wǎng)絡(luò)和目標(biāo)Q 網(wǎng)絡(luò),這些網(wǎng)絡(luò)的結(jié)構(gòu)與SAC 算法中對(duì)應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)一致。

    對(duì)上述兩種算法各訓(xùn)練1 000 回合,每個(gè)訓(xùn)練回合機(jī)械臂最多執(zhí)行100 次動(dòng)作,若達(dá)到100 次動(dòng)作后仍無法完成任務(wù)則恢復(fù)初始狀態(tài),開始下一輪訓(xùn)練。統(tǒng)計(jì)兩種算法在每個(gè)訓(xùn)練回合的累積獎(jiǎng)勵(lì),繪制相應(yīng)的曲線如圖4 所示。

    圖4 兩種算法的獎(jiǎng)勵(lì)變化曲線Fig.4 Reward change curves for two algorithms

    從圖4 可以看出,兩種算法在開始訓(xùn)練時(shí)機(jī)械臂得到的獎(jiǎng)勵(lì)都比較低,為-30 左右。隨著訓(xùn)練次數(shù)的增加,基于路徑模仿和SAC 算法的獎(jiǎng)勵(lì)在不斷上升,400 回合之后獎(jiǎng)勵(lì)值穩(wěn)定在15 左右?;诼窂侥7潞虳DPG 算法的獎(jiǎng)勵(lì)增長(zhǎng)曲線滯后于本文算法,在訓(xùn)練到200 回合之后開始增長(zhǎng),在600回合左右時(shí)獎(jiǎng)勵(lì)值穩(wěn)定在12 左右。

    每訓(xùn)練40 回合統(tǒng)計(jì)一次任務(wù)成功率,兩種算法訓(xùn)練1 000 回合的任務(wù)成功率曲線如圖5 所示。

    圖5 兩種算法的成功率變化曲線Fig.5 Change curves of success rate for two algorithms

    從圖5 可以看出,成功率曲線與獎(jiǎng)勵(lì)曲線的趨勢(shì)基本一致,兩種算法在訓(xùn)練剛開始時(shí)成功率都很低,隨著訓(xùn)練回合增多,成功率逐漸增高,基于路徑模仿和SAC 算法在第400回合左右成功率穩(wěn)定在88%左右,而基于路徑模仿和DDPG算法在600 回合左右時(shí)成功率穩(wěn)定在88%左右。

    機(jī)械臂基于兩種算法分別規(guī)劃10 條路徑,統(tǒng)計(jì)兩種算法所規(guī)劃路徑的平均長(zhǎng)度以及與參考路徑的距離差,統(tǒng)計(jì)結(jié)果如表1 所示。

    表1 10條路徑的路徑規(guī)劃實(shí)驗(yàn)結(jié)果 單位:cmTab.1 Experimental results of path planning for ten paths unit:cm

    機(jī)械臂基于路徑模仿和SAC 算法和基于路徑模仿和DDPG 算法規(guī)劃的路徑與參考路徑的對(duì)比如圖6、7 所示。

    圖6 參考路徑及基于路徑模仿和SAC算法規(guī)劃的路徑對(duì)比Fig.6 Comparison between reference path and path based on path imitation and SAC algorithm

    圖7 參考路徑和基于路徑模仿和DDPG算法規(guī)劃的路徑對(duì)比Fig.7 Comparison between reference path and path based on path imitation and DDPG algorithm

    為驗(yàn)證基于路徑模仿和SAC 的算法對(duì)不同路徑的學(xué)習(xí)效果,采集一條不同的機(jī)械臂運(yùn)動(dòng)路徑作為參考路徑令機(jī)械臂學(xué)習(xí),令機(jī)械臂規(guī)劃一條運(yùn)動(dòng)路徑完成實(shí)驗(yàn)任務(wù)?;赟AC 方法的路徑規(guī)劃算法所規(guī)劃的路徑和參考路徑的對(duì)比如圖8 所示,基于SAC 方法的路徑規(guī)劃算法規(guī)劃的路徑長(zhǎng)度為58.4 cm,偏離參考路徑的最大距離為1.8 cm,偏離參考路徑的平均距離為0.9 cm,機(jī)械臂針對(duì)不同的參考路徑都能學(xué)習(xí)并規(guī)劃合理的路徑來完成任務(wù)。

    圖8 不同的參考路徑及基于路徑模仿和SAC算法規(guī)劃的路徑對(duì)比Fig.8 Comparison of different reference path and path based on path imitation and SAC algorithm

    5 結(jié)語(yǔ)

    針對(duì)目前機(jī)械臂強(qiáng)化學(xué)習(xí)存在獎(jiǎng)勵(lì)稀疏導(dǎo)致的收斂速度慢的問題,本文提出一種基于路徑模仿和SAC 強(qiáng)化學(xué)習(xí)的機(jī)械臂路徑規(guī)劃算法。首先對(duì)基于路徑模仿和SAC 強(qiáng)化學(xué)習(xí)的機(jī)械臂路徑規(guī)劃算法的基本原理進(jìn)行描述;其次介紹了基于路徑模仿的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)原理;接著對(duì)SAC 強(qiáng)化學(xué)習(xí)算法進(jìn)行了介紹,給出了算法流程;最后進(jìn)行了機(jī)械臂路徑規(guī)劃對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文算法能夠有效訓(xùn)練機(jī)械臂完成硬幣投擲入杯的任務(wù),路徑模仿機(jī)制解決了強(qiáng)化學(xué)習(xí)的訓(xùn)練中獎(jiǎng)勵(lì)稀疏難以訓(xùn)練的問題,SAC 算法相較于DDPG 算法探索能力更強(qiáng),所規(guī)劃的路徑更加合理。

    猜你喜歡
    機(jī)械規(guī)劃策略
    調(diào)試機(jī)械臂
    例談未知角三角函數(shù)值的求解策略
    我說你做講策略
    高中數(shù)學(xué)復(fù)習(xí)的具體策略
    規(guī)劃引領(lǐng)把握未來
    簡(jiǎn)單機(jī)械
    快遞業(yè)十三五規(guī)劃發(fā)布
    商周刊(2017年5期)2017-08-22 03:35:26
    多管齊下落實(shí)規(guī)劃
    機(jī)械班長(zhǎng)
    迎接“十三五”規(guī)劃
    av又黄又爽大尺度在线免费看| 在线观看国产h片| h视频一区二区三区| 精品少妇一区二区三区视频日本电影 | 新久久久久国产一级毛片| 老汉色∧v一级毛片| 亚洲精品国产色婷婷电影| 中国三级夫妇交换| 只有这里有精品99| 人体艺术视频欧美日本| 亚洲精品久久成人aⅴ小说| 韩国av在线不卡| 日本爱情动作片www.在线观看| 成人国产麻豆网| 精品福利永久在线观看| 美女高潮到喷水免费观看| 人妻 亚洲 视频| 国产精品一二三区在线看| 国产日韩一区二区三区精品不卡| 观看av在线不卡| 纵有疾风起免费观看全集完整版| 成人午夜精彩视频在线观看| 九色亚洲精品在线播放| 在线观看三级黄色| 又大又爽又粗| 男女床上黄色一级片免费看| 成年av动漫网址| 在线观看国产h片| 免费人妻精品一区二区三区视频| 久久国产精品大桥未久av| 久久狼人影院| 在线免费观看不下载黄p国产| av卡一久久| 一本色道久久久久久精品综合| 亚洲欧美精品自产自拍| 国产亚洲av片在线观看秒播厂| 久久 成人 亚洲| 一级片'在线观看视频| 男人操女人黄网站| 狠狠婷婷综合久久久久久88av| 午夜福利乱码中文字幕| 亚洲熟女毛片儿| 免费观看性生交大片5| 国产男人的电影天堂91| 国产黄频视频在线观看| 大话2 男鬼变身卡| 亚洲精品美女久久av网站| 丁香六月天网| 青春草国产在线视频| 一边摸一边抽搐一进一出视频| 男男h啪啪无遮挡| 精品久久久久久电影网| 亚洲色图 男人天堂 中文字幕| 永久免费av网站大全| av在线老鸭窝| av电影中文网址| 国产99久久九九免费精品| www.熟女人妻精品国产| 久久久久国产一级毛片高清牌| 久久精品久久久久久噜噜老黄| 精品福利永久在线观看| 精品国产乱码久久久久久男人| 不卡视频在线观看欧美| 熟女av电影| 999久久久国产精品视频| 黄色视频在线播放观看不卡| 美国免费a级毛片| 一本—道久久a久久精品蜜桃钙片| 午夜日本视频在线| 亚洲国产欧美一区二区综合| 丝袜美腿诱惑在线| 女人久久www免费人成看片| 亚洲精品美女久久久久99蜜臀 | 国产成人av激情在线播放| 人人妻人人澡人人看| 中文字幕人妻丝袜制服| 亚洲中文av在线| 18禁国产床啪视频网站| 波多野结衣av一区二区av| 国产一级毛片在线| a级毛片黄视频| 久久精品久久精品一区二区三区| 国产一区亚洲一区在线观看| 亚洲天堂av无毛| 欧美精品一区二区大全| 久久国产精品大桥未久av| 成人免费观看视频高清| 精品视频人人做人人爽| 99国产精品免费福利视频| 精品免费久久久久久久清纯 | 免费在线观看黄色视频的| 日韩大码丰满熟妇| 国产黄色免费在线视频| 色婷婷av一区二区三区视频| 欧美日韩一级在线毛片| 欧美日韩一级在线毛片| 少妇的丰满在线观看| av一本久久久久| 男女国产视频网站| 亚洲欧洲日产国产| 国产成人欧美在线观看 | 在现免费观看毛片| 丰满少妇做爰视频| 一本久久精品| 嫩草影院入口| 免费观看性生交大片5| 色视频在线一区二区三区| 国产成人啪精品午夜网站| 99久久精品国产亚洲精品| 操出白浆在线播放| 国产精品国产三级专区第一集| 日韩av不卡免费在线播放| 亚洲一码二码三码区别大吗| 日韩熟女老妇一区二区性免费视频| 高清视频免费观看一区二区| 国产亚洲av片在线观看秒播厂| 丝袜在线中文字幕| 亚洲精品第二区| 不卡av一区二区三区| 午夜福利影视在线免费观看| 在线 av 中文字幕| 丰满少妇做爰视频| 好男人视频免费观看在线| 国产日韩一区二区三区精品不卡| 欧美精品人与动牲交sv欧美| 中文字幕另类日韩欧美亚洲嫩草| 19禁男女啪啪无遮挡网站| 国产精品二区激情视频| h视频一区二区三区| 男人添女人高潮全过程视频| kizo精华| 久久久欧美国产精品| 亚洲国产精品999| 亚洲男人天堂网一区| 久久精品熟女亚洲av麻豆精品| 亚洲美女搞黄在线观看| 国产成人系列免费观看| av有码第一页| 成年人免费黄色播放视频| 久久精品aⅴ一区二区三区四区| 在线观看人妻少妇| 天天躁夜夜躁狠狠躁躁| 黑人巨大精品欧美一区二区蜜桃| 亚洲专区中文字幕在线 | 成年美女黄网站色视频大全免费| 国产有黄有色有爽视频| 色94色欧美一区二区| 国产成人精品在线电影| 夫妻性生交免费视频一级片| 夫妻性生交免费视频一级片| 在线天堂最新版资源| 免费女性裸体啪啪无遮挡网站| 男女之事视频高清在线观看 | 国产乱来视频区| 丰满饥渴人妻一区二区三| 欧美精品亚洲一区二区| 少妇人妻精品综合一区二区| 黄网站色视频无遮挡免费观看| 最近2019中文字幕mv第一页| 秋霞在线观看毛片| 日韩中文字幕欧美一区二区 | 午夜91福利影院| 啦啦啦中文免费视频观看日本| 综合色丁香网| 热re99久久国产66热| 国语对白做爰xxxⅹ性视频网站| 欧美日韩av久久| 韩国高清视频一区二区三区| 晚上一个人看的免费电影| 在线免费观看不下载黄p国产| 亚洲国产成人一精品久久久| 伊人久久大香线蕉亚洲五| 飞空精品影院首页| 一级爰片在线观看| 国产xxxxx性猛交| 美女中出高潮动态图| 天天影视国产精品| videos熟女内射| 十八禁高潮呻吟视频| avwww免费| 人妻一区二区av| 国产精品三级大全| 色吧在线观看| 国产av国产精品国产| 午夜激情av网站| 男人舔女人的私密视频| 男人添女人高潮全过程视频| 大陆偷拍与自拍| 亚洲国产av新网站| av片东京热男人的天堂| 最近最新中文字幕免费大全7| 一本色道久久久久久精品综合| 午夜久久久在线观看| 制服人妻中文乱码| 黄片播放在线免费| 久久国产亚洲av麻豆专区| 老司机影院成人| 一二三四在线观看免费中文在| 飞空精品影院首页| 亚洲av在线观看美女高潮| 国产免费又黄又爽又色| 十八禁网站网址无遮挡| 亚洲精品美女久久av网站| 成人免费观看视频高清| 高清黄色对白视频在线免费看| 大香蕉久久成人网| 成人国产麻豆网| 亚洲成国产人片在线观看| 亚洲欧洲日产国产| 久久久久人妻精品一区果冻| 久久精品国产综合久久久| 999久久久国产精品视频| 中文字幕另类日韩欧美亚洲嫩草| 视频在线观看一区二区三区| 七月丁香在线播放| 一二三四中文在线观看免费高清| 老汉色∧v一级毛片| 国产探花极品一区二区| 欧美日韩视频精品一区| 亚洲,一卡二卡三卡| av线在线观看网站| 国产av码专区亚洲av| 精品一区二区免费观看| 好男人视频免费观看在线| 亚洲精品一区蜜桃| 亚洲成人av在线免费| 在线观看免费日韩欧美大片| 香蕉国产在线看| 精品国产乱码久久久久久小说| 在线观看三级黄色| 日韩成人av中文字幕在线观看| 国语对白做爰xxxⅹ性视频网站| 国产黄色视频一区二区在线观看| 激情视频va一区二区三区| 国产乱人偷精品视频| 人妻 亚洲 视频| 女性生殖器流出的白浆| 亚洲精品aⅴ在线观看| 日本午夜av视频| 在线观看三级黄色| 久久99热这里只频精品6学生| 日韩免费高清中文字幕av| 国产精品免费视频内射| 久久久久久人妻| 国产免费又黄又爽又色| 亚洲在久久综合| 制服丝袜香蕉在线| 91国产中文字幕| 日韩中文字幕视频在线看片| 日韩成人av中文字幕在线观看| 久久久久网色| 国产精品蜜桃在线观看| 日韩 欧美 亚洲 中文字幕| 亚洲av日韩精品久久久久久密 | 18禁动态无遮挡网站| 亚洲欧美成人精品一区二区| 亚洲国产日韩一区二区| 国产在线视频一区二区| 国产精品久久久久久人妻精品电影 | 亚洲美女搞黄在线观看| 80岁老熟妇乱子伦牲交| 欧美激情极品国产一区二区三区| 亚洲第一区二区三区不卡| 日韩一本色道免费dvd| 国产精品人妻久久久影院| 欧美乱码精品一区二区三区| 亚洲欧美清纯卡通| 亚洲精品在线美女| 一个人免费看片子| 欧美日本中文国产一区发布| 美女大奶头黄色视频| 波多野结衣一区麻豆| 熟女少妇亚洲综合色aaa.| 久久韩国三级中文字幕| 日韩一区二区三区影片| 丁香六月天网| 五月开心婷婷网| 亚洲激情五月婷婷啪啪| 大码成人一级视频| 99久久99久久久精品蜜桃| 国产一级毛片在线| 少妇被粗大的猛进出69影院| av.在线天堂| 99热国产这里只有精品6| 久久久久精品国产欧美久久久 | 日韩制服丝袜自拍偷拍| 精品人妻在线不人妻| 精品国产乱码久久久久久男人| 日韩不卡一区二区三区视频在线| 亚洲精品av麻豆狂野| www.自偷自拍.com| 日韩欧美一区视频在线观看| 黄色一级大片看看| 亚洲色图 男人天堂 中文字幕| av网站在线播放免费| 色播在线永久视频| 99热全是精品| 日韩电影二区| 你懂的网址亚洲精品在线观看| 久久精品久久久久久噜噜老黄| 国产一区二区 视频在线| 亚洲成人手机| 国产亚洲一区二区精品| 久久久精品免费免费高清| 精品免费久久久久久久清纯 | 亚洲精品中文字幕在线视频| 日韩欧美一区视频在线观看| 亚洲第一区二区三区不卡| 又大又黄又爽视频免费| 黄片播放在线免费| 少妇人妻精品综合一区二区| 美女中出高潮动态图| 亚洲第一区二区三区不卡| 波多野结衣一区麻豆| 亚洲av电影在线观看一区二区三区| 97人妻天天添夜夜摸| 天天躁狠狠躁夜夜躁狠狠躁| 久久久国产精品麻豆| 欧美日韩视频精品一区| 国产成人啪精品午夜网站| 热99国产精品久久久久久7| 亚洲av成人不卡在线观看播放网 | 亚洲精品国产一区二区精华液| 王馨瑶露胸无遮挡在线观看| 久久久久久久国产电影| 99国产精品免费福利视频| 国产极品天堂在线| 男女高潮啪啪啪动态图| 久久久久精品性色| 人妻 亚洲 视频| 午夜日本视频在线| 夫妻午夜视频| 国产片特级美女逼逼视频| www.自偷自拍.com| 亚洲精华国产精华液的使用体验| 老鸭窝网址在线观看| xxx大片免费视频| 亚洲精品国产av成人精品| 人人妻,人人澡人人爽秒播 | 免费黄色在线免费观看| 国产精品久久久av美女十八| 午夜福利免费观看在线| 别揉我奶头~嗯~啊~动态视频 | 搡老岳熟女国产| 在线精品无人区一区二区三| 婷婷色麻豆天堂久久| 美女扒开内裤让男人捅视频| 五月天丁香电影| 人妻 亚洲 视频| 一级片免费观看大全| 精品午夜福利在线看| 精品久久久精品久久久| 新久久久久国产一级毛片| 大陆偷拍与自拍| 性少妇av在线| 咕卡用的链子| 人人妻,人人澡人人爽秒播 | 欧美日韩精品网址| 在线观看人妻少妇| 看十八女毛片水多多多| 国产精品秋霞免费鲁丝片| 啦啦啦视频在线资源免费观看| 老司机靠b影院| 一本一本久久a久久精品综合妖精| 久久99一区二区三区| 一本—道久久a久久精品蜜桃钙片| 热re99久久国产66热| 黑人巨大精品欧美一区二区蜜桃| 色网站视频免费| 国产97色在线日韩免费| 欧美日韩国产mv在线观看视频| www.自偷自拍.com| 色94色欧美一区二区| 亚洲欧洲国产日韩| 好男人视频免费观看在线| 十八禁高潮呻吟视频| 你懂的网址亚洲精品在线观看| 久久久久国产一级毛片高清牌| 在现免费观看毛片| 久久婷婷青草| 亚洲精品久久久久久婷婷小说| av国产精品久久久久影院| 亚洲国产欧美日韩在线播放| 国产欧美亚洲国产| 少妇人妻 视频| 久久精品国产综合久久久| 十八禁高潮呻吟视频| 国产av码专区亚洲av| 可以免费在线观看a视频的电影网站 | 国产精品国产三级国产专区5o| 亚洲久久久国产精品| 精品国产乱码久久久久久小说| 99久久综合免费| 亚洲欧美色中文字幕在线| 欧美精品人与动牲交sv欧美| 搡老乐熟女国产| 国产成人欧美| 成人亚洲欧美一区二区av| 最新在线观看一区二区三区 | 操出白浆在线播放| 美国免费a级毛片| 秋霞伦理黄片| 免费人妻精品一区二区三区视频| 亚洲精品久久午夜乱码| 波多野结衣av一区二区av| 色视频在线一区二区三区| 国产乱来视频区| 蜜桃在线观看..| 免费观看a级毛片全部| 99久久综合免费| 女人高潮潮喷娇喘18禁视频| 欧美精品人与动牲交sv欧美| 两个人看的免费小视频| 飞空精品影院首页| 国产有黄有色有爽视频| 午夜久久久在线观看| 亚洲国产欧美日韩在线播放| 久久久国产精品麻豆| 啦啦啦在线观看免费高清www| 麻豆乱淫一区二区| 看免费成人av毛片| av片东京热男人的天堂| a 毛片基地| 国产精品二区激情视频| 精品一区二区三区四区五区乱码 | 色婷婷av一区二区三区视频| 欧美日韩精品网址| 亚洲成av片中文字幕在线观看| 日本wwww免费看| 老司机在亚洲福利影院| 国产一区二区三区综合在线观看| 日韩一卡2卡3卡4卡2021年| www日本在线高清视频| a级片在线免费高清观看视频| 又大又黄又爽视频免费| 欧美日韩av久久| 90打野战视频偷拍视频| 久久久久精品国产欧美久久久 | 波野结衣二区三区在线| 啦啦啦在线观看免费高清www| 亚洲国产欧美日韩在线播放| 午夜福利网站1000一区二区三区| 黑人欧美特级aaaaaa片| 一个人免费看片子| 99精品久久久久人妻精品| 亚洲四区av| 亚洲国产日韩一区二区| 丰满乱子伦码专区| 少妇精品久久久久久久| 国产精品成人在线| 2021少妇久久久久久久久久久| 日韩,欧美,国产一区二区三区| 日韩av免费高清视频| 亚洲美女搞黄在线观看| 亚洲精品日韩在线中文字幕| 啦啦啦中文免费视频观看日本| 日韩一区二区视频免费看| 日本wwww免费看| 激情视频va一区二区三区| 亚洲欧美精品自产自拍| 一二三四中文在线观看免费高清| 考比视频在线观看| 美女脱内裤让男人舔精品视频| 日韩不卡一区二区三区视频在线| 美女国产高潮福利片在线看| 老汉色av国产亚洲站长工具| 成人三级做爰电影| 狠狠精品人妻久久久久久综合| 老鸭窝网址在线观看| 中文字幕av电影在线播放| 80岁老熟妇乱子伦牲交| 国产成人91sexporn| 亚洲欧美一区二区三区国产| 叶爱在线成人免费视频播放| 观看美女的网站| 精品一品国产午夜福利视频| 久久精品久久久久久噜噜老黄| 欧美精品亚洲一区二区| 看十八女毛片水多多多| 777米奇影视久久| 黄色 视频免费看| 久久免费观看电影| 美国免费a级毛片| 黄色视频不卡| 亚洲欧洲精品一区二区精品久久久 | 久久热在线av| av视频免费观看在线观看| 又大又黄又爽视频免费| 在线免费观看不下载黄p国产| 狠狠婷婷综合久久久久久88av| 最近中文字幕高清免费大全6| 嫩草影视91久久| av在线观看视频网站免费| 一本大道久久a久久精品| 九草在线视频观看| 国产高清国产精品国产三级| 天天影视国产精品| 久久久精品国产亚洲av高清涩受| 国产精品国产三级国产专区5o| 免费观看人在逋| 中文字幕av电影在线播放| av视频免费观看在线观看| 一级毛片 在线播放| 如何舔出高潮| 亚洲精品aⅴ在线观看| 9191精品国产免费久久| 国产探花极品一区二区| 欧美另类一区| 国产日韩欧美在线精品| 精品国产一区二区久久| 国产日韩欧美视频二区| 中文天堂在线官网| 婷婷色综合www| 久久精品人人爽人人爽视色| 亚洲欧洲日产国产| 在线观看一区二区三区激情| 国产一区二区在线观看av| 女的被弄到高潮叫床怎么办| 街头女战士在线观看网站| 久热爱精品视频在线9| 国产成人精品久久二区二区91 | 亚洲av成人不卡在线观看播放网 | 超碰97精品在线观看| 这个男人来自地球电影免费观看 | 欧美日韩一区二区视频在线观看视频在线| 丁香六月欧美| 捣出白浆h1v1| 天堂8中文在线网| 国产不卡av网站在线观看| 国产男女内射视频| 日韩 欧美 亚洲 中文字幕| 色吧在线观看| 丁香六月天网| av片东京热男人的天堂| 国产深夜福利视频在线观看| 69精品国产乱码久久久| 精品国产超薄肉色丝袜足j| 国产极品天堂在线| 久热爱精品视频在线9| 天天操日日干夜夜撸| 一区二区三区乱码不卡18| 99精国产麻豆久久婷婷| 欧美乱码精品一区二区三区| 90打野战视频偷拍视频| 亚洲精品aⅴ在线观看| 欧美日韩国产mv在线观看视频| 午夜福利在线免费观看网站| 久久韩国三级中文字幕| www.av在线官网国产| 人人妻人人添人人爽欧美一区卜| 亚洲成人国产一区在线观看 | 熟女少妇亚洲综合色aaa.| 无遮挡黄片免费观看| 十分钟在线观看高清视频www| 人人妻,人人澡人人爽秒播 | 女性生殖器流出的白浆| 亚洲,一卡二卡三卡| 国产一区二区激情短视频 | 欧美日韩综合久久久久久| 王馨瑶露胸无遮挡在线观看| 久久女婷五月综合色啪小说| 卡戴珊不雅视频在线播放| 五月开心婷婷网| 高清不卡的av网站| 女性生殖器流出的白浆| 中文字幕高清在线视频| 19禁男女啪啪无遮挡网站| 久久99热这里只频精品6学生| 精品人妻熟女毛片av久久网站| 日韩成人av中文字幕在线观看| 在线精品无人区一区二区三| 欧美久久黑人一区二区| 亚洲,欧美,日韩| 黄片播放在线免费| 精品人妻熟女毛片av久久网站| 久久99热这里只频精品6学生| 国产一区二区三区综合在线观看| 亚洲精品av麻豆狂野| 成人免费观看视频高清| 精品少妇内射三级| 99精国产麻豆久久婷婷| 精品久久久精品久久久| 你懂的网址亚洲精品在线观看| 国产精品久久久久成人av| 亚洲七黄色美女视频| a级毛片黄视频| 亚洲精品自拍成人| 国产日韩欧美视频二区| 街头女战士在线观看网站| 久久久久久免费高清国产稀缺| 欧美日韩视频精品一区| 18禁动态无遮挡网站| 日韩不卡一区二区三区视频在线| 亚洲图色成人| 亚洲精品乱久久久久久| 一区福利在线观看| 久久久久精品国产欧美久久久 | 波多野结衣一区麻豆| 在线亚洲精品国产二区图片欧美| 亚洲国产av新网站| 国产精品久久久av美女十八| 久久久国产一区二区| 成人午夜精彩视频在线观看| 亚洲国产精品一区三区| 亚洲男人天堂网一区| av国产精品久久久久影院| 久久久久久久久久久免费av| 精品久久久精品久久久| 亚洲av日韩在线播放| 一级a爱视频在线免费观看| 国产黄频视频在线观看| 亚洲国产欧美日韩在线播放| 一区二区av电影网| 波多野结衣av一区二区av| 久久久国产一区二区|