• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于事后篩選經(jīng)驗(yàn)回放的機(jī)器人深度強(qiáng)化學(xué)習(xí)跟蹤控制

    2025-04-10 00:00:00易佳豪王福杰胡錦濤李醒羅俊軒
    關(guān)鍵詞:機(jī)械臂

    摘 要:

    針對機(jī)械臂軌跡跟蹤問題,提出了一種結(jié)合事后篩選經(jīng)驗(yàn)回放(selective hindsight experience replay,SHER)的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)控制方法。此算法將SHER與深度確定性策略(deep deterministic policy gradient,DDPG)結(jié)合進(jìn)行機(jī)械臂的軌跡跟蹤控制。SHER算法將智能體探索的經(jīng)驗(yàn)進(jìn)行隨機(jī)抽取,然后篩選有用經(jīng)驗(yàn)修改獎勵(lì)函數(shù),通過提高對正確動作的獎勵(lì)評分加強(qiáng)對智能體正確動作的正反饋強(qiáng)度從而提高智能體探索效率。為了驗(yàn)證方法的有效性,通過歐拉-拉格朗日建模二自由度機(jī)械臂并在具有干擾的復(fù)雜環(huán)境下進(jìn)行仿真實(shí)驗(yàn)對比。實(shí)驗(yàn)結(jié)果表明,所提算法在機(jī)械臂軌跡跟蹤任務(wù)中收斂速度以及收斂穩(wěn)定性與對比算法相比最優(yōu),并且訓(xùn)練出來的模型與對比算法相比在軌跡跟蹤任務(wù)中表現(xiàn)最好,驗(yàn)證了算法的有效性。

    關(guān)鍵詞:事后篩選經(jīng)驗(yàn)回放;深度確定性策略;深度強(qiáng)化學(xué)習(xí);軌跡跟蹤;機(jī)械臂;經(jīng)驗(yàn)池優(yōu)化

    中圖分類號:TP301"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號:1001-3695(2025)03-025-0834-06

    doi: 10.19734/j.issn.1001-3695.2024.07.0234

    Deep reinforcement learning tracking control for robotic manipulator based on selective hindsight experience replay

    Yi Jiahao, Wang Fujie, Hu Jintao, Li Xing, Luo Junxuan

    (Dept. of Computer Science, Dongguan University of Technology, Dongguan Guangdong 523000, China)

    Abstract:

    For the robotic arm trajectory tracking problem, this paper proposed a deep reinforcement learning (DRL) control method combined with selective hindsight experience replay (SHER). This paper combined SHER with deep deterministic policy gradient(DDPG) for trajectory tracking control of the robotic arm. The SHER algorithm randomly extracted the experience of the exploration and then filtered the useful experience to modify the reward function. The SHER reinforced the strength of positive feedback on the correct actions of agent by increasing the reward score for the proper action, which improved the exploration efficiency and enabled faster learning of effective strategies. In order to verify the validity of the method, it modeled a two-degree-of-freedom robotic arm by Eulerian-Lagrangian and compared the simulation experiments in a complex environment with disturbances. The experimental results show that the proposed algorithm has the best convergence speed and convergence stability in the robotic arm trajectory tracking task compared with the comparison algorithm. The trained model has the best performance in the trajectory tracking task compared with the comparison algorithm, which validates the effectiveness of the algorithm.

    Key words:selective hindsight experience replay; deep deterministic policy; DRL; trajectory tracking; robotic arm; experience pool optimisation

    0 引言

    隨著機(jī)器人系統(tǒng)的發(fā)展,其應(yīng)用擴(kuò)展到越來越多的領(lǐng)域,例如醫(yī)療、軍事以及娛樂等[1~3]。機(jī)械臂的軌跡跟蹤任務(wù)是機(jī)器人系統(tǒng)的一個(gè)重要研究領(lǐng)域。在機(jī)械臂進(jìn)行軌跡跟蹤任務(wù)時(shí),機(jī)械臂的每一個(gè)關(guān)節(jié)都必須盡力跟蹤期望軌跡。為了達(dá)到滿意的控制結(jié)果,之前的研究提出許多控制算法用于機(jī)械臂控制,包括PID控制、滑??刂埔约澳P皖A(yù)測控制等[4~6]。而這些控制算法大多都需要精確的機(jī)械臂控制模型或者更多的控制參數(shù)。隨著人工智能的發(fā)展,神經(jīng)網(wǎng)絡(luò)因其自學(xué)習(xí)和良好的自適應(yīng)性被廣泛用于機(jī)器人控制當(dāng)中。

    在文獻(xiàn)[7]中,神經(jīng)網(wǎng)絡(luò)被用于提高機(jī)械臂控制系統(tǒng)的穩(wěn)定性和魯棒性。Khan[8]利用神經(jīng)網(wǎng)絡(luò)逼近機(jī)器人的動態(tài)數(shù)學(xué)模型來實(shí)現(xiàn)工業(yè)機(jī)械手的控制。但是,當(dāng)使用神經(jīng)網(wǎng)絡(luò)控制機(jī)械臂完成任務(wù)的過程中,在訓(xùn)練信息不夠充分時(shí)遇到局部最優(yōu)的風(fēng)險(xiǎn)非常高。深度強(qiáng)化學(xué)習(xí)(DRL)[9]的出現(xiàn)豐富了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式。

    DRL通過與環(huán)境進(jìn)行交互獲得學(xué)習(xí)經(jīng)驗(yàn),這些經(jīng)驗(yàn)被用于優(yōu)化控制策略,因此有利于解決訓(xùn)練信息不充分的問題。深度強(qiáng)化學(xué)習(xí)在各種順序決策問題上都取得了突破,從玩雅達(dá)利游戲[10]和Go到控制任務(wù)[11],特別是機(jī)械臂操作任務(wù)[12]。近年來,得益于DRL的魯棒性和可移植性,其在軌跡跟蹤任務(wù)中的應(yīng)用越來越多。文獻(xiàn)[13]使用PPO算法結(jié)合長短時(shí)記憶網(wǎng)絡(luò)層,增強(qiáng)算法處理時(shí)序任務(wù)的能力。雖然此改進(jìn)解決了軌跡跟蹤控制問題,但是其添加的長短時(shí)記憶網(wǎng)絡(luò)層會增加計(jì)算資源的消耗。文獻(xiàn)[14]使用兩階段訓(xùn)練方法將DRL應(yīng)用于多無人機(jī)目標(biāo)跟蹤任務(wù),第一階段使用提前收集的專家經(jīng)驗(yàn)進(jìn)行預(yù)訓(xùn)練,第二階段對最近一次的優(yōu)秀行為進(jìn)行平均回報(bào)計(jì)算產(chǎn)生優(yōu)秀經(jīng)驗(yàn),提高數(shù)據(jù)利用效率。文獻(xiàn)[14]因多無人機(jī)跟蹤任務(wù)的復(fù)雜性將訓(xùn)練分為了兩部分,但是其第一階段需要提前收集的專家經(jīng)驗(yàn)增加訓(xùn)練的成功率,而提前收集專家經(jīng)驗(yàn)又需要依靠其他算法或者控制器輸出專家經(jīng)驗(yàn),這無疑會消耗大量時(shí)間。文獻(xiàn)[15]對艦群的作戰(zhàn)任務(wù)進(jìn)行分解,將艇群作戰(zhàn)任務(wù)分解為多個(gè)子任務(wù)并為子任務(wù)單獨(dú)設(shè)置外部獎勵(lì),隨后引入獎勵(lì)編碼器為每個(gè)無人艇智能體提供內(nèi)在獎勵(lì)值,利用超網(wǎng)絡(luò)作為解碼器來評價(jià)無人艇個(gè)體的動作,確定無人艇個(gè)體對艇群的貢獻(xiàn)程度,促進(jìn)無人艇群的協(xié)同作戰(zhàn)。但其需要對艦群任務(wù)設(shè)置整體的外獎勵(lì)和個(gè)體的內(nèi)獎勵(lì),設(shè)置合適的獎勵(lì)函數(shù)十分具有挑戰(zhàn)性,并且需要使用超網(wǎng)絡(luò)作為解碼器,無疑增加了訓(xùn)練的難度以及復(fù)雜性。文獻(xiàn)[16]使用事后經(jīng)驗(yàn)回放(hindsight experience replay, HER)結(jié)合DQN解決無人機(jī)飛行規(guī)劃以及避免碰撞的問題。但其解決的是單一目標(biāo)點(diǎn)的離散時(shí)序問題,這種問題使用HER可以提高訓(xùn)練效率以及收斂速度,但是對于軌跡跟蹤這種跟蹤目標(biāo)時(shí)變的任務(wù),無法使用HER對任務(wù)進(jìn)行模擬拆解,因此無法應(yīng)用到軌跡跟蹤任務(wù)中。

    綜上,文獻(xiàn)[13~16]都使用改進(jìn)DRL算法解決了不同的控制任務(wù),但仍然存在改變算法網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致計(jì)算難度加大的問題,或者需要額外的訓(xùn)練經(jīng)驗(yàn)增加了訓(xùn)練復(fù)雜性。由于軌跡跟蹤任務(wù)的目標(biāo)時(shí)變特性,上述的改進(jìn)方案并不適合作為多關(guān)節(jié)機(jī)械臂軌跡跟蹤任務(wù)的解決方案。所以針對上述問題,受到HER的啟發(fā),本文設(shè)計(jì)了一種針對機(jī)械臂軌跡跟蹤任務(wù)的結(jié)合事后篩選經(jīng)驗(yàn)回放(SHER)的深度強(qiáng)化學(xué)習(xí)控制算法。該算法以DDPG為基準(zhǔn)算法,通過事后篩選經(jīng)驗(yàn)回放提升樣本的利用效率以及智能體探索效率,更快地學(xué)習(xí)有效策略。最后本文通過仿真實(shí)驗(yàn)證明了算法可以加速智能體的訓(xùn)練,讓智能體得到更好的控制效果。

    1 問題描述

    1.1 動態(tài)模型

    經(jīng)典力學(xué)提供了很多工具來解釋機(jī)械臂的動力學(xué)。本文根據(jù)拉格朗日函數(shù)推導(dǎo)出機(jī)器人系統(tǒng)的動力學(xué)方程,確定機(jī)器人機(jī)械臂系統(tǒng)關(guān)節(jié)角位置q和關(guān)節(jié)角速度,其動態(tài)的歐拉-拉格朗日方程公式如下[17]:

    1.2 控制目標(biāo)

    給定目標(biāo)跟蹤軌跡qd,為機(jī)械臂設(shè)計(jì)一個(gè)基于DDPG的深度強(qiáng)化學(xué)習(xí)控制器,在不需要提前預(yù)知機(jī)械臂建模的情況下使機(jī)械臂跟蹤目標(biāo)跟蹤軌跡qd。

    2 結(jié)合事后篩選經(jīng)驗(yàn)回放的深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)

    2.1 DDPG深度強(qiáng)化學(xué)習(xí)算法

    DRL算法方面,比較了當(dāng)前比較主流的近端策略優(yōu)化[18]以及軟演員-評論家(soft actor-critic,SAC)[19]等算法,最終選擇了DDPG算法作為基底算法進(jìn)行改進(jìn)。選擇原因如下:PPO算法的實(shí)現(xiàn)復(fù)雜度低并且對算力需求較低,但是其為非確定策略,在處理軌跡跟蹤這種復(fù)雜任務(wù)時(shí)容易導(dǎo)致其梯度爆炸,并且PPO為on policy算法,可塑性低不能與HER等算法相結(jié)合。SAC算法雖然具有更強(qiáng)的探索能力以及更強(qiáng)的魯棒性,但是由于需要同時(shí)訓(xùn)練兩個(gè)critic網(wǎng)絡(luò)以及計(jì)算最大熵,在處理復(fù)雜任務(wù)時(shí)對計(jì)算性能需求十分巨大。而DDPG在對計(jì)算性能需求不大的同時(shí)可塑性較高,適合作為本改進(jìn)實(shí)驗(yàn)的基底算法。

    DDPG深度強(qiáng)化學(xué)習(xí)算法主要包括actor網(wǎng)絡(luò)及其target網(wǎng)絡(luò)、critic網(wǎng)絡(luò)及其target網(wǎng)絡(luò)和獎勵(lì)函數(shù)。actor網(wǎng)絡(luò)π用于輸出機(jī)械臂的動作,當(dāng)前的動作是根據(jù)當(dāng)前的輸入狀態(tài)所確定[20]。critic網(wǎng)絡(luò)Q用于對actor網(wǎng)絡(luò)輸出的動作進(jìn)行打分,預(yù)測動作對環(huán)境的影響。actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò)都使用軟更新的方式更新,通過使用軟更新actor,算法可以在探索和利用之間取得更好的平衡,從而實(shí)現(xiàn)更高效和穩(wěn)定的學(xué)習(xí)。獎勵(lì)函數(shù)R是根據(jù)動作以及環(huán)境返回的狀態(tài)計(jì)算獎勵(lì)函數(shù),計(jì)算出的獎勵(lì)可以用于計(jì)算Q-value值更新actor網(wǎng)絡(luò)以及critic網(wǎng)絡(luò)。一個(gè)深度強(qiáng)化學(xué)習(xí)系統(tǒng)可以用一個(gè)元組D=(S,A,π,Q,R,γ)來定義[21],其中S表示狀態(tài)空間,A表示行動空間,π代表需要訓(xùn)練的行為神經(jīng)網(wǎng)絡(luò),Q代表需要訓(xùn)練的critic神經(jīng)網(wǎng)絡(luò),R代表獎勵(lì)空間,γ是折扣因子。當(dāng)給定一個(gè) DRL 任務(wù),確定當(dāng)前狀態(tài)s、當(dāng)前動作a、獎勵(lì)r以及下一個(gè)狀態(tài)s′時(shí),網(wǎng)絡(luò)的更新過程如圖1所示。

    2.2 事后篩選經(jīng)驗(yàn)回放

    機(jī)械臂軌跡跟蹤任務(wù)是一個(gè)十分復(fù)雜的任務(wù),其目標(biāo)位置會隨著時(shí)間變化而變化。本文要解決的問題是多關(guān)節(jié)的機(jī)械臂軌跡跟蹤控制問題,DDPG可以用于解決連續(xù)動作區(qū)間的控制問題,并且對計(jì)算性能需求不大的同時(shí)可塑性較高,適合作為本改進(jìn)實(shí)驗(yàn)的基底算法,因此本文選用DDPG作為改進(jìn)算法的基底算法。目前使用的DDPG算法在進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練實(shí)驗(yàn)的過程中存在無法收斂、甚至沒有正向收斂趨勢的問題。因?yàn)镈DPG在簡單的連續(xù)動作控制任務(wù)中(例如單力擺)中具有良好表現(xiàn),并且由獎勵(lì)函數(shù)設(shè)置可知使用的獎勵(lì)是密集獎勵(lì),所以考慮是機(jī)械臂軌跡跟蹤任務(wù)的復(fù)雜性以及獎勵(lì)函數(shù)對動作的描述不完全準(zhǔn)確導(dǎo)致的訓(xùn)練失敗。因此本文針對機(jī)械臂軌跡跟蹤任務(wù)使用SHER對經(jīng)驗(yàn)池作出改進(jìn)。雖然目的都是對經(jīng)驗(yàn)進(jìn)行數(shù)據(jù)增強(qiáng),但是本文進(jìn)行數(shù)據(jù)增強(qiáng)的方式與傳統(tǒng)的HER[23]并不相同。傳統(tǒng)的HER一般是用于順序任務(wù)的求解,其基本思路是將經(jīng)驗(yàn)中的下一個(gè)動作到達(dá)的狀態(tài)當(dāng)作達(dá)成最終目標(biāo)過程中需要達(dá)成的目標(biāo)重新計(jì)算獎勵(lì)。而由于軌跡跟蹤任務(wù)的跟蹤目標(biāo)隨時(shí)間的變化而變化,將下一個(gè)狀態(tài)設(shè)為跟蹤目標(biāo)對完成跟蹤任務(wù)并不一定是有幫助的,所以使用傳統(tǒng)的HER并不適用。本文在進(jìn)行事后經(jīng)驗(yàn)回放中利用下一目標(biāo)的狀態(tài)以及當(dāng)前目標(biāo)狀態(tài),使用誤差減少量提高評分對經(jīng)驗(yàn)池的內(nèi)容進(jìn)行更新,新的獎勵(lì)計(jì)算公式如下:

    rn=vh·(e(t)-e(t+1))+r(t)

    (10)

    其中:e(t+1)是t+1時(shí)刻關(guān)節(jié)角的位置誤差;vh是新獎勵(lì)的調(diào)節(jié)參數(shù),如果下一位置距離目標(biāo)更近,那么此時(shí)的新獎勵(lì)就會為正獎勵(lì)。本文的篩選事后經(jīng)驗(yàn)回訪是使用誤差減少的量來進(jìn)行獎勵(lì),因此這種獎勵(lì)有利于對正確動作進(jìn)行正向獎勵(lì),從而增強(qiáng)獎勵(lì)反饋與輸出動作的邏輯性,減少智能體對無意義動作的探索,加快DDPG的探索效率。事后經(jīng)驗(yàn)回放可以在還沒有正向反饋或者正向反饋很少時(shí)充分利用失敗經(jīng)驗(yàn)進(jìn)行學(xué)習(xí),通過添加階段性正向獎勵(lì)加快收斂速度和程度。進(jìn)行事后經(jīng)驗(yàn)回放時(shí),選取回放經(jīng)驗(yàn)方式十分重要,其決定了更新的經(jīng)驗(yàn)是否對訓(xùn)練有幫助。一般經(jīng)驗(yàn)選取方式有三種:

    a)final:只選取每個(gè)回合的最后一個(gè)狀態(tài)s推算出來的goal進(jìn)行回放經(jīng)驗(yàn)。

    b)random:隨機(jī)選取經(jīng)驗(yàn)池中有所有經(jīng)驗(yàn)的經(jīng)驗(yàn)推算出goal進(jìn)行回放經(jīng)驗(yàn)。

    c)episode:在加入經(jīng)驗(yàn)池之前,每個(gè)回合中都隨機(jī)取n個(gè)經(jīng)驗(yàn)進(jìn)行經(jīng)驗(yàn)回放。

    由于跟蹤任務(wù)在每個(gè)時(shí)刻都有不同的目標(biāo)位置,所以選取隨機(jī)的方式在經(jīng)驗(yàn)池中抽取經(jīng)驗(yàn),然后再將已修改的新經(jīng)驗(yàn)對舊經(jīng)驗(yàn)進(jìn)行替換。隨機(jī)選取經(jīng)驗(yàn)回放的缺點(diǎn)也特別明顯,即萬一抽取到的目標(biāo)根本沒辦法指引智能體達(dá)到跟蹤目標(biāo),那么這樣的經(jīng)驗(yàn)回放可能會導(dǎo)致智能體收斂到錯(cuò)誤方向。因此本文的SHER首先對動作探索過程中的經(jīng)驗(yàn)進(jìn)行篩選,篩選出對完成目標(biāo)有益的動作進(jìn)行獎勵(lì)加強(qiáng),避免對無效經(jīng)驗(yàn)重構(gòu)導(dǎo)致經(jīng)驗(yàn)中獎勵(lì)對狀態(tài)描述不準(zhǔn)確的問題,然后對篩選出的經(jīng)驗(yàn)進(jìn)行獎勵(lì)加強(qiáng),使具有指導(dǎo)意義的經(jīng)驗(yàn)有更高的獎勵(lì)回報(bào),解決DDPG因?yàn)殚L時(shí)間得不到有效經(jīng)驗(yàn)而存在的無法收斂、甚至沒有正向收斂趨勢的問題。使用誤差減少的正負(fù)值來判斷當(dāng)前經(jīng)驗(yàn)是否對智能體到達(dá)終點(diǎn)有利,判定公式為

    (e(t)-e(t+1))≥0

    (11)

    即如果當(dāng)前的動作可以使下一個(gè)狀態(tài)的跟蹤誤差減小,則進(jìn)行經(jīng)驗(yàn)回放將正反饋加入獎勵(lì)中。

    2.3 結(jié)合事后篩選經(jīng)驗(yàn)回放的DRL控制算法流程

    根據(jù)上文所述,結(jié)合事后篩選經(jīng)驗(yàn)回放的深度強(qiáng)化學(xué)習(xí)控制算法流程如圖2所示。

    本算法彌補(bǔ)了DDPG算法的探索效率低下、收斂效果不好等問題。其中的SHER算法將DDPG探索的經(jīng)驗(yàn)進(jìn)行隨機(jī)抽取,然后使用誤差減少的量來進(jìn)行獎勵(lì),因此這種獎勵(lì)有利于對正確動作進(jìn)行正向獎勵(lì),從而增強(qiáng)獎勵(lì)反饋與輸出動作的邏輯性,減少智能體對無意義動作的探索,加快DDPG的探索效率。

    3 仿真實(shí)驗(yàn)與結(jié)果分析

    為了評估本文算法的有效性,本章進(jìn)行仿真實(shí)驗(yàn)對比來驗(yàn)證算法。將使用單純的DDPG算法[24]、單純的SAC算法、未使用篩選條件的結(jié)合事后經(jīng)驗(yàn)回放的DDPG算法(DDPG with HER)[25]以及傳統(tǒng)的PID算法[26]與本文結(jié)合事后篩選經(jīng)驗(yàn)回放的DDPG算法(DDPG with SHER)進(jìn)行對比實(shí)驗(yàn)。所有的算法都使用PyTorch包進(jìn)行編寫,所有的實(shí)驗(yàn)平臺都使用Python語言進(jìn)行搭建。

    3.1 仿真環(huán)境

    在仿真中,使用歐拉-拉格朗格日公式建立二自由度機(jī)械臂模型完成軌跡跟蹤任務(wù)。當(dāng)確認(rèn)自由度為2時(shí),式(3)中的慣性矩陣、哥氏力矩陣和重力矩陣可以詳細(xì)表示為

    3.2 實(shí)驗(yàn)設(shè)置

    在仿真實(shí)驗(yàn)中,選擇非線性的跟蹤軌跡qd,其公式如下:

    qd=[qd1 qd2]T=[sin(t) cos(t)]T

    (15)

    其中:t∈[0,te],te=30 s是最大時(shí)間。

    實(shí)驗(yàn)中所有算法的網(wǎng)絡(luò)模型都是三個(gè)全連接層,如圖2中的DDPG網(wǎng)絡(luò)結(jié)構(gòu)所示。actor網(wǎng)絡(luò)的輸入是狀態(tài)state,輸出為兩個(gè)臂的動作力矩τ。critic網(wǎng)絡(luò)的輸入是狀態(tài)state和動作τ,輸出是Q值。算法的訓(xùn)練參數(shù)如表2所示。訓(xùn)練的最大輪數(shù)是500輪,每一輪的運(yùn)動時(shí)間是30 s,分為3 000步,每一步0.01秒。訓(xùn)練時(shí)所有算法的訓(xùn)練參數(shù)相同。當(dāng)機(jī)械臂的當(dāng)前位置位于期望位置時(shí)視為誤差為0,期望位置會隨著時(shí)間的變化而變化,當(dāng)時(shí)間步等于3 000步時(shí),當(dāng)前跟蹤回合結(jié)束,結(jié)束后將機(jī)械臂復(fù)位,所有輸入機(jī)械臂的力都會被限制在(-35,35)內(nèi)。

    3.3 結(jié)果分析

    需要訓(xùn)練的算法的收斂過程如圖3所示,本文使用了不同的獎勵(lì)函數(shù)參數(shù)進(jìn)行測試訓(xùn)練。從圖中可以看到,沒有使用事后經(jīng)驗(yàn)回放的DDPG算法和SAC算法由于任務(wù)復(fù)雜度太高正反饋太少導(dǎo)致訓(xùn)練不成功,而未使用篩選條件的DDPG with HER算法雖然對比只用DDPG有很大提升,但是在更新時(shí)不穩(wěn)定,收斂到的獎勵(lì)不理想,最后的跟蹤效果不太理想,本文算法則對事后經(jīng)驗(yàn)進(jìn)行篩選之后再回放,避免誤導(dǎo)經(jīng)驗(yàn)的出現(xiàn),可以收斂到更低的誤差。

    經(jīng)過學(xué)習(xí)之后,為了測試學(xué)習(xí)過程的有效性,本文將四種DRL算法訓(xùn)練出來的跟蹤誤差最小的模型輸出的跟蹤圖與傳統(tǒng)的PID控制算法進(jìn)行對比,這里的PID算法參數(shù)為[50, 50, 10, 10, 60, 60]。跟蹤效果如圖4、5所示,跟蹤誤差如圖6、7所示,跟蹤速度誤差如圖8、9所示,其中=-d為速度誤差。可以看到,本文算法的整體跟蹤誤差最小,跟蹤效果最優(yōu)。為了更加直觀地展現(xiàn)差距,所有算法的跟蹤過程中的誤差信息如表3所示,其中平均誤差定義為

    AE=12(AE1+AE2)=

    12(1s∑si=1(|qd1-q1|)+1s∑si=1(|qd2-q2|))

    (16)

    其中:AE1是關(guān)節(jié)1的平均誤差;AE2是關(guān)節(jié)2的平均誤差。由表3可以看到所提算法前期誤差收斂最快,在跟蹤的過程中誤差波動最小、穩(wěn)態(tài)誤差最小。隨后本實(shí)驗(yàn)為機(jī)械臂添加一些隨機(jī)擾動,測試DRL的跟蹤穩(wěn)定性,所添加的擾動大小如圖10、11所示。

    添加擾動后的實(shí)驗(yàn)結(jié)果如圖12~17所示,所有算法被添加的擾動都一樣,并且隨時(shí)間變化而變化。

    添加擾動后的所有誤差詳細(xì)數(shù)據(jù)也在表3中展示,由數(shù)據(jù)可以看出,加入擾動后,對本文算法的誤差影響最小,整體跟蹤效果也保持良好。此實(shí)驗(yàn)證明本文算法的有效性以及跟蹤穩(wěn)定性。

    4 結(jié)束語

    針對未知模型參數(shù)的二自由度機(jī)械臂軌跡跟蹤問題,本文提出了一種結(jié)合事后篩選經(jīng)驗(yàn)回放的深度強(qiáng)化學(xué)習(xí)控制算法來解決軌跡跟蹤問題。訓(xùn)練以及仿真結(jié)果表明,本文算法可以收斂到更大的獎勵(lì),并且跟蹤時(shí)在跟蹤效果和跟蹤穩(wěn)定性中都有不錯(cuò)的表現(xiàn),同時(shí)它獨(dú)立于特定的神經(jīng)網(wǎng)絡(luò)模型,具有較高的可移植性,可以將算法移植到其他多自由度的機(jī)械臂控制任務(wù)當(dāng)中。但是本文的實(shí)驗(yàn)只在二維平面進(jìn)行建模仿真以驗(yàn)證深度強(qiáng)化控制算法的可行性,未來可在三維空間中進(jìn)一步進(jìn)行驗(yàn)證實(shí)驗(yàn)。

    參考文獻(xiàn):

    [1]Díaz M A, Vo M, Dillen A, et al. Human in the loop optimization of wearable robotic devices to improve human robot interaction: a systematic review [J]. IEEE Trans on Cybernetics, 2023, 53(12): 7483-7496.

    [2]Qiu Jinyu, Li Minghui, Li Ruimin, et al. Robotic intracellular pressure measurement based on improved balance pressure model [J]. IEEE Trans on Instrumentation and Measurement, 2023, 70(7): 1-9.

    [3]Sun Chuanbin, Wang Shubo, Yu Haisheng, et al. Finite time sliding mode control based on unknown system dynamics estimator for nonli-near robotic systems [J]. IEEE Trans on Circuits and Systems II: Express Briefs, 2023, 70(7): 2535-2539.

    [4]李鋼. 基于模糊PID控制的恒壓供水系統(tǒng)的研究 [J]. 電子設(shè)計(jì)工程, 2024, 32(13): 83-87. (Li Gang. Research on constant pressure water supply system based on fuzzy PID control [J]. Electronic Design Engineering, 2024, 32(13): 83-87.)

    [5]Zhang Yu, Kong Linghuan, Zhang Shuangxi, et al. Improved sliding mode control for a robotic manipulator with input deadzone and de-ferred constraint [J]. IEEE Trans on Systems, Man, and Cybernetics: Systems, 2023, 53: 7814-7826.

    [6]Zhang Jinxin, Wang Hongze. Online model predictive control of robot manipulator with structured deep Koopman model [J]. IEEE Robo-tics and Automation Letters, 2023, 8(5): 3102-3109.

    [7]Baghban F, Akbarzadeh-T M-R. Adaptive emotional neuro control for a class of uncertain affine nonlinear systems [C]// Proc of the 28th Iranian Conference on Electrical Engineering. Piscataway,NJ:IEEE Press,2020: 1-5.

    [8]Khan G D. Control of robot manipulators with uncertain closed architecture using neural networks[J]. Intelligent Service Robotics, 2024, 17: 315-327

    [9]潘成勝, 曹康寧, 石懷峰, 等. 基于深度強(qiáng)化學(xué)習(xí)的戰(zhàn)術(shù)通信網(wǎng)絡(luò)路徑優(yōu)選算法 [J]. 中國電子科學(xué)研究院學(xué)報(bào), 2024, 19(2): 138-148. (Pan Chengsheng, Cao Kangning, Shi Huaifeng, et al. Deep reinforcement learning based path preference algorithm for tactical communication networks [J]. Journal of China Academy of Electronic Science, 2024, 19(2): 138-148.)

    [10]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning [J]. Nature, 2015, 518(7540): 529-533.

    [11]張璽君, 聶生元, 李喆, 等. 基于自注意力機(jī)制的深度強(qiáng)化學(xué)習(xí)交通信號控制 [J]. 交通運(yùn)輸系統(tǒng)工程與信息, 2024, 24(2): 96-104. (Zhang Xijun, Nie Shengyuan, Li Zhe, et al. Deep reinforcement learning traffic signal control based on self-attention mechanism [J]. Transportation Systems Engineering and Information, 2024, 24(2): 96-104.)

    [12]陳奎燁, 葛群峰, 高興波, 等. 針對二連桿機(jī)械臂控制的DDPG算法研究 [J]. 無線通信技術(shù), 2021, 30(3): 17-22. (Chen Kuiye, Ge Qunfeng, Gao Xingbo, et al. Research on DDPG algorithm for two-link robotic arm control [J]. Wireless Communication Technology, 2021, 30(3): 17-22.)

    [13]夏家偉, 朱旭芳, 羅亞松, 等. 基于深度強(qiáng)化學(xué)習(xí)的無人艇軌跡跟蹤算法研究 [J]. 華中科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2023, 51(5): 74-80. (Xia Jiawei, Zhu Xufang, Luo Yasong, et al. Research on unmanned boat trajectory tracking algorithm based on deep reinforcement learning [J]. Journal of Huazhong University of Science and Technology:Natural Science Edition, 2023, 51(5): 74-80.)

    [14]Wang Jiahua, Zhang Ping, Wang Yang. Autonomous target tracking of multi-UAV: a two-stage deep reinforcement learning approach with expert experience [J]. Applied Soft Computing, 2023, 145: 110604.

    [15]郭洪宇, 顧浩, 竇林濤. 基于任務(wù)分解內(nèi)在獎勵(lì)的無人艇群協(xié)同作戰(zhàn) [C]// 中國指揮與控制學(xué)會. 第十二屆中國指揮控制大會論文集 (上冊). 北京: 兵器工業(yè)出版社, 2024: 613-618. (Guo Hongyu, Gu Hao, Dou Lintao. Unmanned boat swarm cooperative operations based on task decomposition intrinsic reward [C]// Proc of the 12th Chinese Command and Control Conference (Upper Volume). Beijing: Weapon Industry Press, 2024: 613-618.)

    [16]Seah S X, Srigrarom S. Multiple UAS traffic planning based on deep Q-Network with hindsight experience replay and economic considerations [J]. Aerospace, 2023; 10(12): 980.

    [17]趙佳君. 基于事件觸發(fā)機(jī)制的多歐拉-拉格朗日系統(tǒng)的協(xié)調(diào)控制 [D]. 曲阜: 曲阜師范大學(xué), 2022. (Zhao Jiajun. Coordinated control of Multi-Euler-Lagrange systems based on event-triggered mechanism [D]. Qufu: Qufu Normal University, 2022.)

    [18]時(shí)高松, 趙清海, 董鑫, 等. 基于PPO算法的自動駕駛?cè)藱C(jī)交互式強(qiáng)化學(xué)習(xí)方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(9):2732-2736. (Shi Gaosong, Zhao Qinghai, Dong Xin, et al.

    Human-machine interactive reinforcement learning method for autonomous driving based on PPO algorithm [J]. Application Research of Computers, 2024, 41(9):2732-2736.)

    [19]彭姿馀, 王高才, 農(nóng)望. 基于SAC的多服務(wù)移動邊緣計(jì)算中任務(wù)卸載和資源配置算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(5): 1497-1503. (Peng Ziyu, Wang Gaocai, Nong Wang. SAC based algorithm for task offloading and resource provisioning in multiple-services mobile edge computing [J]. Application Research of Computers, 2023, 40(5): 1497-1503.)

    [20]徐海濤, 程海燕, 童名文. 基于深度強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)排課遺傳算法研究 [J]. 計(jì)算機(jī)科學(xué), 2024, 51(S1): 241-248. (Xu Haitao, Cheng Haiyan, Tong Mingwen. Research on self-learning sche-duling genetic algorithm based on deep reinforcement learning [J]. Computer Science, 2024, 51(S1): 241-248.)

    [21]韓一寧, 張程彬, 郭敏嘉, 等. 基于深度強(qiáng)化學(xué)習(xí)面向虛假拓?fù)涔艉屯負(fù)鋬?yōu)化的電網(wǎng)調(diào)度方法 [J]. 智慧電力, 2024, 52(3): 25-31. (Han Yining, Zhang Chengbin, Guo Minjia, et al. A grid scheduling method based on deep reinforcement learning for 1 topology attack and topology optimization [J]. Intelligent Power, 2024, 52(3): 25-31.)

    [22]俞宙. 基于強(qiáng)化學(xué)習(xí)的三維集成電路布圖規(guī)劃優(yōu)化方法研究 [D]. 杭州: 杭州電子科技大學(xué), 2024. (Yu Zhou. Research on optimisation method of three-dimensional integrated circuit layout planning based on reinforcement learning [D]. Hangzhou: Hangzhou University of Electronic Science and Technology, 2024.)

    [23]Luo Yongle, Wang Yuxin, Dong Kun, et al. Relay hindsight experience replay: self-guided continual reinforcement learning for sequential object manipulation tasks with sparse rewards [J]. Applied Soft Computing, 2023, 557: 126620.

    [24]孟晨陽, 郝崇清, 李冉, 等. 基于改進(jìn)DDPG算法的復(fù)雜環(huán)境下AGV路徑規(guī)劃方法研究 [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(3): 681-687. (Meng Chenyang, Hao Chongqing, Li Ran, et al. Research on AGV path planning method in complex environment based on improved DDPG algorithm [J]. Application Research of Computers, 2022, 39(3): 681-687.)

    [25]Sehgal A, Ward N, La H M, et al. GA+DDPG+HER: genetic algorithm-based function optimizer in deep reinforcement learning for robotic manipulation tasks [C]// Proc of the 6th IEEE International Conference on Robotic Computing. Piscataway,NJ:IEEE Press, 2022: 85-86.

    [26]杜金清, 謝艷新, 趙子萱, 等. 基于PID控制算法的恒溫控制器設(shè)計(jì)與研究 [J]. 無線互聯(lián)科技, 2024, 21(10): 43-49. (Du Jinqing, Xie Yanxin, Zhao Zixuan, et al. Design and research of thermostatic controller based on PID control algorithm [J]. Wireless Interconnection Technology, 2024, 21(10): 43-49.)

    猜你喜歡
    機(jī)械臂
    一種六自由度機(jī)械臂的控制系統(tǒng)設(shè)計(jì)
    碼頭集裝箱機(jī)械臂的研究與設(shè)計(jì)
    書畫手臂的模型設(shè)計(jì)
    六自由度機(jī)械臂控制系統(tǒng)設(shè)計(jì)
    基于無人機(jī)平臺的垃圾搜索及拾取系統(tǒng)設(shè)計(jì)
    基于智能車技術(shù)的圖書館書籍整理機(jī)器人
    機(jī)械臂平面運(yùn)動控制與分析
    機(jī)械臂工作空間全局相對可操作度圖的構(gòu)建方法
    人機(jī)交互課程創(chuàng)新實(shí)驗(yàn)
    定點(diǎn)巡視與帶電清理平臺的研究與設(shè)計(jì)
    18在线观看网站| 亚洲色图综合在线观看| 亚洲美女视频黄频| 操美女的视频在线观看| 亚洲免费av在线视频| av福利片在线| 免费观看人在逋| 国产精品 欧美亚洲| 少妇的丰满在线观看| 极品人妻少妇av视频| 天堂中文最新版在线下载| 亚洲国产日韩一区二区| 人人妻,人人澡人人爽秒播 | 国产黄频视频在线观看| 免费av中文字幕在线| 免费在线观看视频国产中文字幕亚洲 | 99国产综合亚洲精品| 少妇被粗大猛烈的视频| 一二三四中文在线观看免费高清| www.自偷自拍.com| 国产免费现黄频在线看| 日本wwww免费看| 久久青草综合色| 久久久精品区二区三区| 欧美人与善性xxx| 国产精品 国内视频| 国产男人的电影天堂91| 亚洲欧美中文字幕日韩二区| 国产精品麻豆人妻色哟哟久久| 亚洲成色77777| 久久精品久久久久久噜噜老黄| 久久99热这里只频精品6学生| 亚洲欧美激情在线| 在线观看免费视频网站a站| 新久久久久国产一级毛片| 亚洲精品日本国产第一区| 精品一区二区三区av网在线观看 | 精品人妻一区二区三区麻豆| 黑丝袜美女国产一区| 亚洲欧洲国产日韩| 卡戴珊不雅视频在线播放| 啦啦啦啦在线视频资源| 不卡视频在线观看欧美| 国产欧美日韩综合在线一区二区| 成年女人毛片免费观看观看9 | 菩萨蛮人人尽说江南好唐韦庄| 国产免费视频播放在线视频| 嫩草影视91久久| 国产在线免费精品| 日本wwww免费看| 色播在线永久视频| 亚洲一卡2卡3卡4卡5卡精品中文| 精品一区二区三区av网在线观看 | 日韩av不卡免费在线播放| 亚洲免费av在线视频| 美国免费a级毛片| 久久精品国产a三级三级三级| www.av在线官网国产| 波多野结衣一区麻豆| 观看美女的网站| 一级黄片播放器| 1024香蕉在线观看| 国产黄频视频在线观看| 观看美女的网站| 亚洲av综合色区一区| a级片在线免费高清观看视频| 亚洲精品视频女| 国产男女内射视频| 少妇人妻精品综合一区二区| 高清视频免费观看一区二区| 日韩伦理黄色片| 精品少妇内射三级| 精品亚洲成国产av| 国产女主播在线喷水免费视频网站| 大片电影免费在线观看免费| 亚洲欧美中文字幕日韩二区| a级片在线免费高清观看视频| 街头女战士在线观看网站| 成人漫画全彩无遮挡| 国产亚洲一区二区精品| 美女高潮到喷水免费观看| 人人妻人人澡人人看| 亚洲成人手机| 日韩视频在线欧美| 婷婷色麻豆天堂久久| 国产亚洲最大av| 亚洲欧美激情在线| 久久鲁丝午夜福利片| 波多野结衣一区麻豆| 黄色毛片三级朝国网站| 久久久国产欧美日韩av| 中文天堂在线官网| 人人妻人人添人人爽欧美一区卜| 亚洲国产成人一精品久久久| 亚洲第一区二区三区不卡| 大片电影免费在线观看免费| 国产一级毛片在线| 国产有黄有色有爽视频| 免费av中文字幕在线| 一区二区三区激情视频| 亚洲av日韩精品久久久久久密 | 免费久久久久久久精品成人欧美视频| 精品国产超薄肉色丝袜足j| 不卡视频在线观看欧美| 一本色道久久久久久精品综合| 超碰成人久久| 黄片小视频在线播放| 国产一区二区三区av在线| 日日爽夜夜爽网站| 在线观看一区二区三区激情| 18在线观看网站| 最近中文字幕高清免费大全6| 国产欧美日韩一区二区三区在线| 久久精品国产亚洲av高清一级| 2018国产大陆天天弄谢| 久久久久久免费高清国产稀缺| 国产探花极品一区二区| 亚洲免费av在线视频| 美女国产高潮福利片在线看| 亚洲人成网站在线观看播放| 国产精品偷伦视频观看了| 最近中文字幕高清免费大全6| 老熟女久久久| 国产精品 国内视频| 黄片播放在线免费| 涩涩av久久男人的天堂| 亚洲精品日韩在线中文字幕| 久久人人爽av亚洲精品天堂| 精品亚洲成国产av| 久久精品亚洲av国产电影网| av电影中文网址| 日韩精品免费视频一区二区三区| 成人黄色视频免费在线看| 国产成人a∨麻豆精品| 国产亚洲av片在线观看秒播厂| 满18在线观看网站| av在线播放精品| 精品人妻一区二区三区麻豆| 一区二区三区精品91| 少妇猛男粗大的猛烈进出视频| 日本91视频免费播放| 纵有疾风起免费观看全集完整版| 日日摸夜夜添夜夜爱| av在线app专区| 永久免费av网站大全| 在线观看国产h片| 国产爽快片一区二区三区| 国产精品av久久久久免费| 一级片'在线观看视频| 日韩中文字幕欧美一区二区 | 色婷婷av一区二区三区视频| 侵犯人妻中文字幕一二三四区| 国产在线视频一区二区| 一级毛片 在线播放| 欧美日韩精品网址| 波野结衣二区三区在线| 可以免费在线观看a视频的电影网站 | 国产伦人伦偷精品视频| 亚洲情色 制服丝袜| 亚洲专区中文字幕在线 | 国产亚洲av高清不卡| 国产一区二区三区综合在线观看| 爱豆传媒免费全集在线观看| 国产日韩欧美视频二区| 久久女婷五月综合色啪小说| 搡老乐熟女国产| 久久久久久久国产电影| 午夜日本视频在线| 国精品久久久久久国模美| 久久久久国产精品人妻一区二区| 亚洲欧美激情在线| 久久精品国产a三级三级三级| 日韩,欧美,国产一区二区三区| a级毛片在线看网站| 青草久久国产| 操美女的视频在线观看| 久久影院123| 亚洲欧美中文字幕日韩二区| 天天影视国产精品| 人体艺术视频欧美日本| 亚洲国产av新网站| 久久99热这里只频精品6学生| 亚洲成人免费av在线播放| 一级片免费观看大全| 日本av手机在线免费观看| 极品少妇高潮喷水抽搐| 青草久久国产| 天天躁日日躁夜夜躁夜夜| 秋霞伦理黄片| 日韩一卡2卡3卡4卡2021年| 水蜜桃什么品种好| 最近中文字幕2019免费版| 国产精品 欧美亚洲| 天天躁夜夜躁狠狠躁躁| av在线观看视频网站免费| 亚洲国产欧美网| 久久国产精品男人的天堂亚洲| 街头女战士在线观看网站| 午夜福利影视在线免费观看| 日韩,欧美,国产一区二区三区| 亚洲国产av影院在线观看| 黄色视频在线播放观看不卡| 亚洲av电影在线进入| 欧美少妇被猛烈插入视频| 亚洲国产成人一精品久久久| 十八禁人妻一区二区| 欧美乱码精品一区二区三区| 在线精品无人区一区二区三| 亚洲欧洲日产国产| 亚洲国产毛片av蜜桃av| 亚洲一卡2卡3卡4卡5卡精品中文| 久久久国产精品麻豆| 国产黄频视频在线观看| 久久久欧美国产精品| 成人国产麻豆网| 亚洲国产欧美网| 午夜福利影视在线免费观看| 国产亚洲一区二区精品| 国产成人精品久久久久久| 久久久久久久精品精品| 久久精品熟女亚洲av麻豆精品| 欧美黄色片欧美黄色片| 亚洲中文av在线| www.精华液| 久久久久久久国产电影| 在线观看免费日韩欧美大片| 老司机影院成人| 99re6热这里在线精品视频| 可以免费在线观看a视频的电影网站 | 五月开心婷婷网| 一边亲一边摸免费视频| 亚洲av在线观看美女高潮| 精品福利永久在线观看| 久久综合国产亚洲精品| 欧美av亚洲av综合av国产av | 女人高潮潮喷娇喘18禁视频| 少妇被粗大猛烈的视频| 久久久久久免费高清国产稀缺| 久久久久久久久久久免费av| 男女边吃奶边做爰视频| 国产成人av激情在线播放| 王馨瑶露胸无遮挡在线观看| 国产伦理片在线播放av一区| 成人国语在线视频| e午夜精品久久久久久久| 中文字幕精品免费在线观看视频| 亚洲欧美一区二区三区黑人| 亚洲七黄色美女视频| 2018国产大陆天天弄谢| 下体分泌物呈黄色| 高清视频免费观看一区二区| 色精品久久人妻99蜜桃| 咕卡用的链子| 99国产精品免费福利视频| e午夜精品久久久久久久| 久久人人爽人人片av| 午夜福利免费观看在线| 国产精品女同一区二区软件| avwww免费| 免费在线观看黄色视频的| 国产精品嫩草影院av在线观看| 免费在线观看完整版高清| 免费不卡黄色视频| 免费看av在线观看网站| 男女之事视频高清在线观看 | 午夜日韩欧美国产| 宅男免费午夜| 男人操女人黄网站| 久热爱精品视频在线9| 黄色一级大片看看| 国产精品一区二区在线不卡| 熟妇人妻不卡中文字幕| 麻豆av在线久日| 中文字幕高清在线视频| 欧美黑人欧美精品刺激| 男女高潮啪啪啪动态图| 国产精品麻豆人妻色哟哟久久| 亚洲精品,欧美精品| av不卡在线播放| 亚洲欧美成人精品一区二区| 熟女少妇亚洲综合色aaa.| 狠狠精品人妻久久久久久综合| 欧美精品一区二区大全| 欧美日韩国产mv在线观看视频| 久久久久久人妻| 尾随美女入室| av网站免费在线观看视频| 国产国语露脸激情在线看| 极品人妻少妇av视频| 美女大奶头黄色视频| 久久性视频一级片| 精品久久久久久电影网| 欧美日韩视频高清一区二区三区二| 亚洲欧美一区二区三区久久| 一级黄片播放器| 一个人免费看片子| 国产一区二区三区综合在线观看| 国产精品久久久久久人妻精品电影 | 欧美日韩国产mv在线观看视频| 一二三四在线观看免费中文在| 久久人人97超碰香蕉20202| 国产探花极品一区二区| 国产视频首页在线观看| 在线观看免费视频网站a站| 精品久久久久久电影网| 自线自在国产av| 最新的欧美精品一区二区| 免费高清在线观看日韩| 国产av国产精品国产| av视频免费观看在线观看| 亚洲美女视频黄频| 亚洲国产成人一精品久久久| 国产精品无大码| 欧美精品亚洲一区二区| 最近最新中文字幕大全免费视频 | 国产麻豆69| 久久这里只有精品19| 91精品国产国语对白视频| 久久综合国产亚洲精品| 欧美精品av麻豆av| 午夜日韩欧美国产| av在线播放精品| av不卡在线播放| 久久久精品区二区三区| 一级爰片在线观看| 1024视频免费在线观看| 欧美日韩亚洲国产一区二区在线观看 | 国产成人精品无人区| 日韩不卡一区二区三区视频在线| 久久精品久久精品一区二区三区| a级毛片黄视频| 一个人免费看片子| 最近中文字幕2019免费版| 99热网站在线观看| 一本久久精品| 91成人精品电影| 欧美日韩亚洲综合一区二区三区_| 亚洲伊人久久精品综合| 五月天丁香电影| 欧美精品高潮呻吟av久久| 亚洲av中文av极速乱| 91精品伊人久久大香线蕉| 国产日韩欧美在线精品| 这个男人来自地球电影免费观看 | 狠狠精品人妻久久久久久综合| 国产精品av久久久久免费| 亚洲欧洲日产国产| 国产精品久久久久久久久免| 黑丝袜美女国产一区| 国产成人91sexporn| 最近手机中文字幕大全| 久久毛片免费看一区二区三区| 最黄视频免费看| 国产人伦9x9x在线观看| 一二三四在线观看免费中文在| 午夜免费观看性视频| 电影成人av| 欧美国产精品一级二级三级| 老司机影院成人| 天天影视国产精品| 国产成人精品无人区| 日韩中文字幕视频在线看片| 精品国产国语对白av| 在线亚洲精品国产二区图片欧美| 欧美老熟妇乱子伦牲交| a级毛片在线看网站| 久久久久国产一级毛片高清牌| 久久 成人 亚洲| 国产日韩欧美视频二区| 999久久久国产精品视频| 丝袜喷水一区| 久久精品国产亚洲av涩爱| 免费女性裸体啪啪无遮挡网站| 国产熟女午夜一区二区三区| 欧美中文综合在线视频| 男男h啪啪无遮挡| 婷婷色av中文字幕| 80岁老熟妇乱子伦牲交| 久久人妻熟女aⅴ| 亚洲国产av影院在线观看| 91老司机精品| 中文乱码字字幕精品一区二区三区| 中文字幕亚洲精品专区| 热99久久久久精品小说推荐| 亚洲欧美一区二区三区黑人| 免费观看a级毛片全部| 激情五月婷婷亚洲| av不卡在线播放| 成年av动漫网址| kizo精华| 免费观看人在逋| 日韩伦理黄色片| 黄片播放在线免费| 欧美日韩精品网址| 免费少妇av软件| 中文字幕另类日韩欧美亚洲嫩草| 成人国产av品久久久| 精品一区二区三卡| 午夜福利在线免费观看网站| 日韩伦理黄色片| 黄色毛片三级朝国网站| 欧美日韩亚洲高清精品| 欧美人与善性xxx| 免费观看a级毛片全部| 亚洲色图综合在线观看| 999久久久国产精品视频| 免费在线观看完整版高清| 亚洲激情五月婷婷啪啪| 高清av免费在线| 亚洲国产最新在线播放| 女的被弄到高潮叫床怎么办| 欧美激情高清一区二区三区 | 日本猛色少妇xxxxx猛交久久| av天堂久久9| 日本欧美国产在线视频| 老汉色∧v一级毛片| videos熟女内射| 欧美人与善性xxx| 国产精品一区二区在线观看99| 国产女主播在线喷水免费视频网站| 亚洲精品,欧美精品| 高清av免费在线| 伊人久久大香线蕉亚洲五| 亚洲精品aⅴ在线观看| 国产一区二区 视频在线| 亚洲欧美一区二区三区国产| 亚洲男人天堂网一区| 看非洲黑人一级黄片| 观看美女的网站| 99热全是精品| 久久亚洲国产成人精品v| 制服诱惑二区| 一区二区三区四区激情视频| 日韩中文字幕欧美一区二区 | a级毛片黄视频| 久久国产精品男人的天堂亚洲| 男女之事视频高清在线观看 | 18禁动态无遮挡网站| 热99久久久久精品小说推荐| 久久免费观看电影| 欧美国产精品一级二级三级| 少妇人妻精品综合一区二区| 蜜桃在线观看..| 亚洲av国产av综合av卡| 亚洲欧洲日产国产| 五月天丁香电影| 亚洲精品乱久久久久久| 成人影院久久| 国产日韩欧美亚洲二区| 欧美日韩福利视频一区二区| 又黄又粗又硬又大视频| 久久精品aⅴ一区二区三区四区| 日本av免费视频播放| 一二三四中文在线观看免费高清| 亚洲欧美日韩另类电影网站| 亚洲国产看品久久| 国产伦人伦偷精品视频| 自拍欧美九色日韩亚洲蝌蚪91| 色播在线永久视频| 人人妻,人人澡人人爽秒播 | 天美传媒精品一区二区| 国产日韩欧美视频二区| 热99久久久久精品小说推荐| 亚洲精品,欧美精品| 亚洲精品久久午夜乱码| 天天躁夜夜躁狠狠躁躁| 亚洲国产精品一区二区三区在线| 男女高潮啪啪啪动态图| av电影中文网址| 国产欧美日韩一区二区三区在线| 色网站视频免费| 久久ye,这里只有精品| 午夜福利视频在线观看免费| 观看av在线不卡| 狂野欧美激情性bbbbbb| 成人亚洲欧美一区二区av| 亚洲av电影在线观看一区二区三区| 亚洲精品一区蜜桃| 免费人妻精品一区二区三区视频| 又黄又粗又硬又大视频| 亚洲精品久久成人aⅴ小说| 欧美日韩福利视频一区二区| 免费黄色在线免费观看| 亚洲av日韩精品久久久久久密 | 日韩视频在线欧美| 人成视频在线观看免费观看| 久久热在线av| 人人妻,人人澡人人爽秒播 | 国产在线一区二区三区精| 国产精品 国内视频| 啦啦啦在线免费观看视频4| 赤兔流量卡办理| 18禁裸乳无遮挡动漫免费视频| 丰满饥渴人妻一区二区三| 男女免费视频国产| 99久久综合免费| 久久av网站| 免费久久久久久久精品成人欧美视频| 飞空精品影院首页| 日韩av在线免费看完整版不卡| 亚洲欧美清纯卡通| 国产成人精品在线电影| 国产精品女同一区二区软件| 久久久欧美国产精品| 多毛熟女@视频| 人妻 亚洲 视频| 欧美日韩亚洲国产一区二区在线观看 | 久久精品国产综合久久久| 少妇被粗大的猛进出69影院| 少妇人妻久久综合中文| 日韩中文字幕欧美一区二区 | 成人亚洲精品一区在线观看| 激情五月婷婷亚洲| 天天躁狠狠躁夜夜躁狠狠躁| 欧美人与性动交α欧美精品济南到| 黄色视频在线播放观看不卡| 午夜福利在线免费观看网站| 久久人人爽av亚洲精品天堂| 美女中出高潮动态图| 国产成人91sexporn| 亚洲欧洲日产国产| 亚洲图色成人| 国产精品偷伦视频观看了| 五月天丁香电影| 国产成人精品在线电影| 我的亚洲天堂| 国产精品久久久人人做人人爽| 色婷婷av一区二区三区视频| 亚洲精品在线美女| 一级,二级,三级黄色视频| 亚洲欧美清纯卡通| 日韩熟女老妇一区二区性免费视频| 欧美精品av麻豆av| 巨乳人妻的诱惑在线观看| 亚洲美女视频黄频| 亚洲成人一二三区av| 久久免费观看电影| 国产精品熟女久久久久浪| 亚洲成色77777| 久久99热这里只频精品6学生| 亚洲精品久久成人aⅴ小说| 爱豆传媒免费全集在线观看| 亚洲欧美精品自产自拍| 99久久99久久久精品蜜桃| 亚洲国产日韩一区二区| av一本久久久久| 精品一区二区三卡| 日韩大片免费观看网站| 韩国精品一区二区三区| 69精品国产乱码久久久| 一边摸一边做爽爽视频免费| 纵有疾风起免费观看全集完整版| 亚洲欧美清纯卡通| 欧美最新免费一区二区三区| 日日爽夜夜爽网站| 十八禁网站网址无遮挡| 两个人看的免费小视频| 午夜福利一区二区在线看| 午夜激情久久久久久久| 男女午夜视频在线观看| 人人妻人人澡人人看| 中文字幕亚洲精品专区| 亚洲熟女精品中文字幕| 久久精品久久久久久久性| 国产黄色免费在线视频| a 毛片基地| 天天操日日干夜夜撸| 亚洲自偷自拍图片 自拍| 你懂的网址亚洲精品在线观看| 亚洲国产最新在线播放| 午夜福利免费观看在线| 啦啦啦在线免费观看视频4| 精品人妻熟女毛片av久久网站| 久久久久久久精品精品| 亚洲久久久国产精品| 亚洲国产精品一区三区| 亚洲欧美成人精品一区二区| 久久综合国产亚洲精品| 亚洲,欧美,日韩| 精品第一国产精品| 亚洲第一青青草原| 丰满乱子伦码专区| av视频免费观看在线观看| 成人三级做爰电影| h视频一区二区三区| svipshipincom国产片| 在线观看免费视频网站a站| 国产男女内射视频| 精品视频人人做人人爽| 熟女少妇亚洲综合色aaa.| 少妇精品久久久久久久| 一本色道久久久久久精品综合| 精品人妻一区二区三区麻豆| 中国三级夫妇交换| 在线观看免费视频网站a站| 欧美少妇被猛烈插入视频| 黄片小视频在线播放| 黄片播放在线免费| 精品人妻熟女毛片av久久网站| av在线播放精品| 久久国产精品大桥未久av| 高清欧美精品videossex| 看十八女毛片水多多多| 国产精品 欧美亚洲| 午夜影院在线不卡| 最新在线观看一区二区三区 | 免费观看a级毛片全部| 晚上一个人看的免费电影| 哪个播放器可以免费观看大片| 国产一级毛片在线| 国产 一区精品| 18禁动态无遮挡网站| 国产极品粉嫩免费观看在线| 18禁动态无遮挡网站| 精品一区二区免费观看|