• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于行為克隆的機械臂多智能體深度強化學(xué)習軌跡跟蹤控制

    2025-04-30 00:00:00易佳豪王福杰胡錦濤秦毅郭芳羅俊軒
    計算機應(yīng)用研究 2025年4期
    關(guān)鍵詞:機械智能

    摘 要:針對具有非線性干擾以及多變環(huán)境的機械臂軌跡跟蹤問題,提出了一種結(jié)合行為克?。╞ehavior cloning,BC)的多智能體深度強化學(xué)習(multi-agent deep reinforcement learning,MDRL)控制方法。多智能體控制算法中包含了以孿生延遲深度確定性策略梯度算法(twin delayed deep deterministic policy gradient algorithm,TD3)為基底算法的比例積分微分智能體(proportional-integral-derivative agent,PID agent)和直接用深度強化學(xué)習策略輸出扭矩的智能體(direct deep reinforcement learning agent,DDR agent),并采用兩個獎勵函數(shù)來優(yōu)化兩個agent的策略網(wǎng)絡(luò)。PID agent用于輸出PID控制器的參數(shù),再由PID控制器輸出力矩控制機械臂以增加控制器的跟蹤泛性,DDR agent則直接輸出扭矩增加控制器的抗干擾性。為了克服多智能體訓(xùn)練難度高的問題,在訓(xùn)練中引入行為克隆技術(shù),利用PID控制器的專家經(jīng)驗對PID agent進行預(yù)訓(xùn)練,形成預(yù)策略在訓(xùn)練初期就可以輸出較合適的PID參數(shù),增加有效經(jīng)驗來加速訓(xùn)練過程的獎勵收斂。為了驗證方法的有效性,通過歐拉拉格朗日建模二自由度機械臂,并在具有干擾的多種環(huán)境下進行仿真實驗對比。實驗結(jié)果表明,所提算法在具有隨機干擾環(huán)境以及與訓(xùn)練軌跡不同的跟蹤軌跡中都具有最好的跟蹤效果,驗證了所提算法的有效性。

    關(guān)鍵詞:多智能體;孿生延遲深度確定性策略梯度;深度強化學(xué)習;軌跡跟蹤;行為克隆

    中圖分類號:TP301"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-008-1025-09

    doi: 10.19734/j.issn.1001-3695.2024.09.0340

    Multi-agent deep reinforcement learning tracking control for robotic manipulator based on behavior cloning

    Yi Jiahao, Wang Fujie, Hu Jintao, Qin Yi, Guo Fang, Luo Junxuan

    (Dept. of Computer Science, Dongguan University of Technology, Dongguan Guangdong 523000, China)

    Abstract:For the robotic arm trajectory tracking in different environment with nonlinear disturbances problem, this paper proposed an MDRL control method combined with BC to solve problem. The MDRL control algorithm contained a PID agent and a DDR agent. Both of agents were based on TD3 algorithm, and designed two reward functions to optimise the policy networks of two agents. The PID agent was used to output the parameters of the PID controller and then the torque was output by PID controller to increase controller tracking generality. The DDR agent directly outputed the torque to increase the interference resis-tance of the controller. To overcome the complexity of multi-agent training, this paper utilised expert experience to pre-train the PID agent by BC. Which accelerate the reward convergence of the training process. In order to verify the validity of the method, it modeled a two-degree-of-freedom robotic arm by Eulerian-Lagrangian and compared the simulation experiments in a variety environment with disturbances. The experimental results show that the proposed algorithm has the best tracking performance in variety tracking trajectories in random interference environment, which validates the effectiveness of the algorithm.

    Key words:multi-agent; twin delayed deep deterministic policy gradient; deep reinforcement learning; trajectory tracking; behavior cloning

    0 引言

    近幾年隨著智能制造的蓬勃發(fā)展,機器人系統(tǒng)進步迅速,并且已經(jīng)廣泛應(yīng)用到光伏、汽車等多個行業(yè)中[1, 2]。機器人路徑規(guī)劃和軌跡跟蹤是機器人自動化和智能化的關(guān)鍵技術(shù)之一,目前關(guān)于機械臂控制的研究已經(jīng)取得了很多成果[3, 4]。隨著控制復(fù)雜性的增加,機器人的不確定性和系統(tǒng)干擾也應(yīng)該在控制設(shè)計中得到特別關(guān)注。因此,文獻[5]提出了一種用于機械臂的自適應(yīng)非奇異魯棒積分滑??刂破?,以處理時變干擾。Soltanpour等人[6]提出了一種利用模糊滑動模式跟蹤機器人位置的優(yōu)化控制方法,并采用粒子群優(yōu)化算法來克服機器人的不確定性。此外,文獻[7]還詳細介紹了一種基于模型的控制算法,通過識別動態(tài)參數(shù)實現(xiàn)液壓機械臂的高精度軌跡跟蹤。然而,上述研究需要機器人系統(tǒng)的數(shù)學(xué)模型部分已知或?qū)ζ溥M行估計。值得注意的是,機器人的動態(tài)模型,尤其是在復(fù)雜的工業(yè)應(yīng)用中,往往是時變或不確定的。

    為了適應(yīng)這種不確定性,近年來神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于解決不確定的非線性動態(tài)機器人系統(tǒng)的控制設(shè)計問題[8]。文獻[9]提出了一種基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(radial basis function neural networks,RBFNN)的自適應(yīng)控制方法來實現(xiàn)位置跟蹤控制。文獻[10]引入了一種基于神經(jīng)網(wǎng)絡(luò)的控制方法。該方法具有自學(xué)習和近似能力,可以解決不確定性和外部干擾問題。文獻[11]利用神經(jīng)網(wǎng)絡(luò)提高了機械臂控制系統(tǒng)的穩(wěn)定性和魯棒性。上述研究減少了對線性數(shù)學(xué)模型的依賴,但是在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時容易遇到訓(xùn)練不充分以及局部最優(yōu)的問題。

    深度強化學(xué)習(deep reinforcement learning,DRL)的出現(xiàn)豐富了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法,增強神經(jīng)網(wǎng)絡(luò)在不確定的環(huán)境中進行決策的能力[12]。DRL將深度學(xué)習和強化學(xué)習相結(jié)合,廣泛應(yīng)用于機器人控制領(lǐng)域。文獻[13]引入了深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法來訓(xùn)練機械臂在復(fù)雜環(huán)境中執(zhí)行連續(xù)動作。在文獻[14]中,近端策略優(yōu)化(proximal policy optimization,PPO)被用于使機械臂在模擬環(huán)境中跟蹤軌跡。雖然這些基于 DRL 的方法實現(xiàn)了機器臂軌跡跟蹤任務(wù),但是其訓(xùn)練出的模型只能在訓(xùn)練集包含的軌跡中具有良好表現(xiàn),泛化能力仍有待提高。

    多智能體深度強化學(xué)習(MDRL)[15]可以將任務(wù)分解給單個智能體,一起協(xié)同解決復(fù)雜任務(wù),適應(yīng)復(fù)雜環(huán)境。文獻[16]提出了一種MDRL方法來解決目標搜索問題。Ali Shahid等人[17]提出了一種分布式MDRL控制方法,用于協(xié)調(diào)多個機械臂完成復(fù)雜的抓取和提升任務(wù)。文獻[18]將解耦多智能體深度確定性策略梯度(decoupling multi-agent deep deterministic policy gradient, DE-MADDPG)算法應(yīng)用到軸孔裝配問題,將機械臂的前三個關(guān)節(jié)和后三個關(guān)節(jié)構(gòu)造成多智能體系統(tǒng),分開獨立控制以降低耦合性。文獻[19]采用近端策略優(yōu)化(proximal policy optimization,PPO)與多智能體(multi-agents)結(jié)合的M-PPO算法完成機械臂執(zhí)行末端避障并到達目標物體位置任務(wù),解決傳統(tǒng)運動控制算法存在的環(huán)境適應(yīng)性較差、效率低的問題。雖然上述論文使用MDRL解決了很多問題,但是針對隨機干擾環(huán)境下機器人軌跡跟蹤任務(wù)的MDRL方法的研究還很有限。因此,本文結(jié)合了MDRL和PID控制器設(shè)計了一種多智能體控制系統(tǒng),解決非線性隨機干擾和多變環(huán)境下的機器人跟蹤控制問題。本文的主要貢獻如下:

    a)文獻[17]中,MDRL被用于控制機械臂完成特定任務(wù),但并未考慮到具有強隨機干擾以及多變的環(huán)境。針對這種環(huán)境,本文設(shè)計了一種多智能深度強化學(xué)習體控制器,用于控制機械臂完成軌跡跟蹤任務(wù)。該控制系統(tǒng)包含了兩個以TD3為基礎(chǔ)算法的智能體:一個智能體用于調(diào)整 PID 控制器的參數(shù),結(jié)合PID反饋控制器增加控制器的泛化能力;另一個智能體直接輸出補償扭矩增加抗干擾能力。通過多智能體協(xié)同工作,增強控制器的抗干擾能力和泛化能力。

    b)由于兩個agent工作邏輯的差異和工作重點的不同,本文必須設(shè)計兩種不同的獎勵函數(shù)來反映每一個agent的工作表現(xiàn)。本文將整體獎勵分化成內(nèi)部獎勵,使PID agent對整體跟蹤效果獎勵權(quán)重更大,更注重整體跟蹤效果,而DDR agent對誤差變化率獎勵權(quán)重更大,更加注重跟蹤穩(wěn)定性。經(jīng)過兩個獎勵函數(shù)的協(xié)調(diào)反饋,具有不同控制特性的兩個智能體可以朝著共同的控制目標更新。

    c)由于使用多智能體會導(dǎo)致訓(xùn)練難度加大,受到文獻[20]的啟發(fā),本文采用BC解決多智能體系統(tǒng)收斂困難的問題。通過BC技術(shù)利用PID控制器的專家經(jīng)驗對PID agent進行預(yù)訓(xùn)練,形成的預(yù)策略在訓(xùn)練初期就可以輸出較合適的PID參數(shù)增加有效經(jīng)驗,提高了多智能體算法探索過程的有效性,解決了多智能體系統(tǒng)收斂困難甚至不收斂的問題。

    1 問題描述

    1.1 動態(tài)模型

    機器人系統(tǒng)的動力學(xué)方程由拉格朗日函數(shù)導(dǎo)出,機械臂關(guān)節(jié)角變量是q,關(guān)節(jié)角速度是,動態(tài)方程用歐拉拉格朗日方程可以表示為[21]:

    其中:qmin表示力矩的最小值;qmax表示力矩的最大值。

    1.2 非線性隨機干擾設(shè)計

    本文設(shè)計了非線性干擾來驗證算法的魯棒性。非線性干擾的定義如下:

    (4)

    其中:r=1,2,3,…,k是一個隨機數(shù);Euclid Math OneFApi(r)是第i個關(guān)節(jié)受到的干擾力,一共有n個關(guān)節(jié);Radn∈[0,1]是一個隨機生成數(shù),設(shè)置數(shù)值x∈[0,1],當隨機數(shù)Radn超過所設(shè)置的數(shù)x時,干擾就會發(fā)生;G(r)∈(-K,K)是一個具有值域(-K,K)的未知函數(shù),用于確定干擾發(fā)生時的干擾力矩,其大小與隨機數(shù)r有關(guān),與機械臂的力無關(guān),屬于外部干擾??梢酝ㄟ^設(shè)置x以及K來設(shè)置干擾的大小范圍以及發(fā)生概率。因此,當使用這種干擾時,已知的只有干擾力矩大小和發(fā)生概率,其他所有信息都未知。本文的干擾強度以及發(fā)生概率都是由隨機數(shù)或者隨機函數(shù)控制,并且這些隨機數(shù)或隨機函數(shù)都是在一定范圍內(nèi)均勻分布。因此,隨機干擾的干擾強度在確定了大小范圍后其分布特性以及變化規(guī)律也符合均勻分布特性。此干擾模擬在現(xiàn)實環(huán)境中可能遇到的信息有限的環(huán)境干擾,比如風、海浪或者未知外部力等。

    1.3 控制目標及研究意義

    給定具有隨機非線性干擾環(huán)境以及目標跟蹤軌跡qd,為機械臂設(shè)計一個多智能體深度強化學(xué)習控制器,無須預(yù)知機械臂動態(tài)模型即可在有干擾的多變環(huán)境中使機械臂跟蹤目標跟蹤軌跡qd。本文研究的內(nèi)容是在具有干擾以及多變環(huán)境中的機械臂軌跡跟蹤任務(wù),本文創(chuàng)新性地結(jié)合兩個輸出力矩方式不同的agent并通過BC訓(xùn)練成功,增加了跟蹤任務(wù)過程中的控制泛性以及抗干擾能力。在實際控制中,控制器的控制泛性可以增加其應(yīng)用前景以及特殊情況的應(yīng)對能力,抗干擾能力則可以增加控制器的控制穩(wěn)定性以適應(yīng)更多的極端應(yīng)用場景。因此本文研究對在海上、沙漠等惡劣環(huán)境以及惡劣天氣中的噴涂、裝配等任務(wù)的解決方案具有重要參考意義。

    2 基于行為克隆的多智能體深度強化學(xué)習算法設(shè)計

    2.1 TD3深度強化學(xué)習算法

    TD3是一種專門為了連續(xù)動作空間任務(wù)設(shè)計的非在線actor-critic DRL算法[23]。一個深度強化學(xué)習系統(tǒng)可以用一個元組D=(S,A,π,Q,R,γ)來定義。其中:S表示狀態(tài)空間;A表示行動空間,π代表需要訓(xùn)練的行為神經(jīng)網(wǎng)絡(luò);Q代表需要訓(xùn)練的critic神經(jīng)網(wǎng)絡(luò);R代表獎勵空間;γ是折扣因子。當給定一個 DRL 任務(wù)時,確定當前狀態(tài)s、當前動作a、獎勵r以及下一個狀態(tài)s′,TD3網(wǎng)絡(luò)的更新過程如圖1所示。TD3的目標策略輸出目標動作的公式如下:

    (5)

    其中:a′是目標動作;s′是根據(jù)當前動作作用于當前狀態(tài)所產(chǎn)生的下一個狀態(tài);πφ′(s′)目標策略πφ′根據(jù)下一動作s′產(chǎn)生的目標動作;是添加的隨機噪聲;(-c,c)是添加噪聲的值域;(alow,ahigh)是輸出的動作的大小范圍;符號clip(a,b,c)代表用范圍(b,c)對a進行截斷裁剪。

    TD3使用兩個不同的Q網(wǎng)絡(luò)對動作進行估計并且選擇兩個Q值中的最小值更新目標,抑制持續(xù)的過高估計。因此在TD3中計算目標Q值的公式如下:

    y(r,s′)=r+γmini=1,2Qθ ′i(s′,a′(s′))

    (6)

    其中:r代表環(huán)境給的回報值;γ代表折扣因子;Qθi=[Qθ1,Qθ2]是由雙Q網(wǎng)絡(luò)組成的critic網(wǎng)絡(luò)。

    actor網(wǎng)絡(luò)的更新公式如下:

    2.2 行為克隆

    行為克隆(behavioral cloning,BC) 是模擬學(xué)習的一種。行為克隆的學(xué)習過程就是學(xué)習專家經(jīng)驗給出的行為[24]。行為克隆可以用于模型的預(yù)訓(xùn)練以及降低模型的獎勵收斂難度。行為克隆的學(xué)習過程就是學(xué)習一種從狀態(tài)到專家行為的映射關(guān)系,這種映射關(guān)系通常用神經(jīng)網(wǎng)絡(luò)表達。行為克隆的訓(xùn)練目的是使智能體在遇到與專家相同的情況時作出相同的動作,因此行為克隆的訓(xùn)練過程可以理解為減少神經(jīng)網(wǎng)絡(luò)輸出的動作與專家經(jīng)驗展示的行為的差異。如果一個神經(jīng)網(wǎng)絡(luò)使用均方誤差(mean square error,MSE)作為損失函數(shù),那么在行為克隆時計算loss的公式如下:

    (8)

    其中:(si,ai)是一個回合的狀態(tài)和專家動作;N是從數(shù)據(jù)集中抽取的樣本數(shù);f(si)是待訓(xùn)練網(wǎng)絡(luò)對當前狀態(tài)的預(yù)測動作。

    2.3 PID控制器

    PID的全稱是比例積分微分(proportional integral derivative,PID)[25],是一種反饋控制算法。 PID 控制器通常表示為

    (9)

    其中:P是比例項的輸出;Kp是比例系數(shù);e(t)表示t時刻的誤差;I表示積分項的輸出;Ki是積分系數(shù);Euclid SymbolrCpt0e(t)dt表示誤差從開始到當前時刻的積分;D是微分項的輸出;Kd是微分系數(shù);de(t)/dt是誤差的變化率。本文的PID agent使用TD3輸出PID的三個參數(shù)Kp、Ki以及Kd,PID agent只需要找到適合當前機械臂的PID參數(shù)就可以良好地完成跟蹤任務(wù),因此其訓(xùn)練速度較快,但是其抗干擾效果還需要DDR agent進行彌補。

    2.4 獎勵函數(shù)設(shè)計

    本文的多智能體算法使用兩個智能體控制同一個機械臂,兩個智能體輸出力矩的方式完全不同,PID agent輸出PID控制器的參數(shù),再由PID控制器輸出控制力矩,DDR agent則直接輸出控制力矩。兩個agent在跟蹤任務(wù)過程中的工作重點也有差異:PID agent更加關(guān)注整體的跟蹤效果,DDR agent更加關(guān)注抗干擾能力以及跟蹤穩(wěn)定性。由于兩個agent工作邏輯差異和工作重點不同,本文必須設(shè)計兩種不同的獎勵函數(shù)來反映每一個agent的工作表現(xiàn),在兩個智能體的共同目標相同時對不同的參數(shù)變化更加敏感。兩個獎勵函數(shù)將整體任務(wù)進行分化,形成兩個agent的內(nèi)部獎勵,增強兩個agent的協(xié)作能力。PID agent在時刻t的即時獎勵定義為

    rp(t)=-ve·e(t)

    (10)

    其中:e(t)=q(t)-qd(t)表示跟蹤誤差;q(t)、qd(t)分別表示機械臂位置以及期望位置;ve代表跟蹤誤差的系數(shù)。PID agent更注重整體軌跡跟蹤性能,因此PID agent的獎勵只使用軌跡誤差作為獎勵值。

    DDR agent在時刻t的即時獎勵定義為

    rd(t)=-(ve·e(t))+ved·ed(t)

    (11)

    其中:ed(t)=e(t-1)-e(t)表示誤差的變化量;edv是誤差變化量的參數(shù)。使用誤差變化量作為獎勵可以讓DDR agent對跟蹤的穩(wěn)定性更加敏感。DDR agent是直接輸出力矩到機械臂,因此其對干擾或者系統(tǒng)波動可以快速反應(yīng),可以提升系統(tǒng)的抗干擾能力以及跟蹤穩(wěn)定性。假設(shè)時間步長t之后來自環(huán)境的獎勵序列可以表示為rt+1,rt+2,rt+3…。那么加權(quán)即時獎勵的總和就是預(yù)期的折扣獎勵:

    RP(t)=∑Nk=1γk-1r1t+k

    (12)

    RD(t)=∑Nk=1γk-1r2t+k

    (13)

    結(jié)合式(10)(11),式(12)(13)可以被表示為

    RP(t)=∑Nk=1γk-1-ve·e(t)

    (14)

    RD(t)=∑Nk=1γk-1(-(ve·e(t))+ved·ed(t))

    (15)

    其中:γ∈[0,1]表示折扣因子。

    2.5 結(jié)合行為克隆的MDRL控制算法流程

    根據(jù)上文所述,結(jié)合事后篩選經(jīng)驗回放的深度強化學(xué)習控制算法流程如圖2所示。

    本文要解決的問題是多關(guān)節(jié)的機械臂在具有非線性干擾以及多變的環(huán)境中的軌跡跟蹤控制問題,孿生延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient algorithm,TD3)可以很好地解決機械臂軌跡跟蹤的控制問題并且具有良好的抗干擾能力,但由于神經(jīng)網(wǎng)絡(luò)具有與任務(wù)擬合的特性,其在跟蹤與訓(xùn)練軌跡不同的其他軌跡時表現(xiàn)不佳。為了克服這個問題,本文引入了比例積分微分(proportional integral derivative,PID)反饋控制器設(shè)計出了TD3 with PID算法,此算法使用神經(jīng)網(wǎng)絡(luò)輸出PID控制器參數(shù)再通過PID控制器輸出力矩控制機械臂進行軌跡跟蹤。這種方法提升了算法的跟蹤泛性,但由于神經(jīng)網(wǎng)絡(luò)需要先輸出參數(shù)到PID控制器再由PID控制器輸出力矩進行控制,降低了算法對干擾的反應(yīng)能力,導(dǎo)致此算法的抗干擾能力并不理想。因此針對多關(guān)節(jié)的機械臂在具有非線性干擾以及多變的環(huán)境中的軌跡跟蹤控制任務(wù),本文設(shè)計出多智能體深度強化學(xué)習(multi-agent deep reinforcement learning,MDRL)控制方法解決問題。多智能體控制器可以結(jié)合兩種算法的優(yōu)點,同時提升算法跟蹤泛性以及抗干擾能力。根據(jù)圖3訓(xùn)練獎勵收斂圖可知,設(shè)計出的MDRL算法在進行訓(xùn)練實驗的過程中存在無法收斂、甚至沒有正向收斂趨勢的問題,因此本文還引入了行為克?。╞ehavioral cloning,BC) 來加速訓(xùn)練。本文算法與前人的多智能體機械臂控制算法[26]有所不同。前人的多智能體機械臂控制算法大多是對任務(wù)進行分階段拆解,在不同任務(wù)階段由不同智能體進行控制以提升任務(wù)執(zhí)行的穩(wěn)定性以及泛性。而本文算法對復(fù)雜任務(wù)進行功能拆解,PID agent結(jié)合PID控制算法提升算法的泛性能力,DDR agent則主要提升算法的抗干擾能力。本文為了讓機械臂適應(yīng)不同環(huán)境中的軌跡跟蹤任務(wù),關(guān)注的是算法具備不同功能適應(yīng)環(huán)境,因此功能拆解更加適合本文所研究任務(wù)。

    c)使用actor網(wǎng)絡(luò)輸出動作a=πφ(s)輸入PID控制器,再由PID控制器輸出力矩到環(huán)境,得到下一個狀態(tài)s′,并且通過獎勵函數(shù)式(12)獲得獎勵RM,將當前的狀態(tài)轉(zhuǎn)移元組(s,a,r,s′)作為經(jīng)驗儲存在經(jīng)驗池Euclid Math OneBAp中。如果s′為本回合結(jié)束狀態(tài)就重設(shè)環(huán)境狀態(tài)。

    d)當經(jīng)驗池的經(jīng)驗數(shù)量滿足用于更新的數(shù)量時,抽取N個小批量樣本進行訓(xùn)練更新。

    e)使用式(5)(6)計算目標動作以及Q值y(r,s′)。

    f)使用計算出來的Q值y(r,s′)更新critic網(wǎng)絡(luò):

    其中:α為不大于1的軟更新權(quán)重。

    DDR agent:

    a)用隨機的網(wǎng)絡(luò)參數(shù)θ1、θ2和φ初始化評論網(wǎng)絡(luò)Qθi=[Qθ1,Qθ2]和動作網(wǎng)絡(luò)πφ,初始化目標網(wǎng)絡(luò)參數(shù)θ′1←θ1,θ′2←θ2,φ′←φ,初始化回放經(jīng)驗池Euclid Math OneBAp。

    b)使用actor網(wǎng)絡(luò)輸出動作a=πφ(s)到環(huán)境,得到下一個狀態(tài)s′,并且通過獎勵函數(shù)式(13)獲得獎勵RD,將當前的狀態(tài)轉(zhuǎn)移元組(s,a,r,s′)作為經(jīng)驗存儲在經(jīng)驗池Euclid Math OneBAp中。如果s′為本回合結(jié)束狀態(tài)就重設(shè)環(huán)境狀態(tài)。

    c)當經(jīng)驗池的經(jīng)驗數(shù)量滿足用于更新的數(shù)量時,抽取N個小批量樣本進行更新。

    d)使用式(5)(6)計算目標動作以及Q值y(r,s′)。

    e)使用計算出來的Q值y(r,s′)更新critic網(wǎng)絡(luò):

    θi′←αθi+(1-α)θi′, φ′←αφ+(1-α)φ′

    其中:α為不大于1的軟更新權(quán)重。

    本文中的兩個agent具有不同的控制特點,因此在訓(xùn)練過程中使用了不同的獎勵函數(shù)以及訓(xùn)練流程對兩個agent在同一個環(huán)境中進行訓(xùn)練。其中PID agent使用BC進行預(yù)訓(xùn)練,這種訓(xùn)練需要一些PID控制器的專家經(jīng)驗。在TD3 with PID算法的訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)只需要輸出PID控制器的控制參數(shù)就可以在整個跟蹤任務(wù)中達到良好的控制效果,其探索域會比使用TD3直接輸出力矩控制機械臂小得多,因此使用TD3 with PID算法的收斂速度比只使用TD3快得多。根據(jù)TD3 with PID 算法好訓(xùn)練的特點,本文先對TD3 with PID 算法進行訓(xùn)練,再使用訓(xùn)練好的模型進行跟蹤測試,在跟蹤過程中收集由當前狀態(tài)se、模型輸出的專家動作ae、當前獎勵re以及下一個狀態(tài)s′e形成的狀態(tài)轉(zhuǎn)移元組(se,ae,re,s′e)作為專家經(jīng)驗。最后用由專家經(jīng)驗形成的經(jīng)驗池作為PID agent預(yù)訓(xùn)練所需的專家經(jīng)驗池εβ進行BC預(yù)訓(xùn)練。雖然使用BC使訓(xùn)練流程變得復(fù)雜了,但單獨的TD3 with PID 算法訓(xùn)練難度低使得專家經(jīng)驗獲取相對容易,使用BC后降低了MDRL的訓(xùn)練難度,解決了MDRL本身十分難訓(xùn)練的問題。除了行為克隆,還有很多可以提升訓(xùn)練成功率的算法,例如事后經(jīng)驗回放(handsight experience replay,HER)[27],這種方法不需要提前準備專家經(jīng)驗。但是文獻[28]表明,HER主要是針對稀疏獎勵并且需要對任務(wù)獎勵描述十分準確,如果獎勵工程不夠準確甚至會導(dǎo)致訓(xùn)練產(chǎn)生偏差,因此不適合復(fù)雜的多智能體訓(xùn)練。行為克隆則并不需要對復(fù)雜系統(tǒng)再進行獎勵分析就可以達到降低訓(xùn)練復(fù)雜性的效果。因此本文通過BC利用PID控制器的專家經(jīng)驗對PID agent進行預(yù)訓(xùn)練,在正式訓(xùn)練之前使用PID控制器的專家經(jīng)驗組成的訓(xùn)練集,將PID agent在相同狀態(tài)下的決策與專家決策的差距作為損失對PID agent進行預(yù)更新,從而使智能體具有接近專家決策水平的能力。形成的預(yù)策略在訓(xùn)練初期就可以輸出較合適的PID參數(shù)增加正向反饋的經(jīng)驗,降低訓(xùn)練復(fù)雜性,解決了多智能體系統(tǒng)收斂困難甚至不收斂的問題。

    3 仿真實驗與結(jié)果分析

    本章將進行仿真實驗,以評估所提方法的性能。本文使用 PyTorch 進行基本的實驗搭建。為了評估所提方法,將使用TD3 with PID算法[29]、單純的TD3算法[30]以及未使用BC的MDRL算法與本文MDRL進行對比實驗。

    3.1 仿真環(huán)境搭建

    在仿真中,使用歐拉-拉格朗日公式建立二自由度機械臂模型完成軌跡跟蹤任務(wù)。當確認自由度為2時,在式(1)中的慣性矩陣、哥氏力矩陣和重力矩陣可以詳細表示為

    (18)

    其中:q=[q1,q2]T代表兩個機械臂的關(guān)節(jié)角位置;=[1,2]T代表兩個機械臂關(guān)節(jié)角速度;r1和r2代表兩個機械臂的長度;兩條機械臂的質(zhì)量由m1和m2表示;g代表重力加速度。機械臂的初始狀態(tài)和屬性設(shè)置如表1所示,其中q(0)代表初始位置,(0)代表初始速度。在實驗中所有算法的網(wǎng)絡(luò)模型都是三個全連接層,如圖2中的MDRL網(wǎng)絡(luò)結(jié)構(gòu)所示。actor網(wǎng)絡(luò)的輸入是狀態(tài)state,輸出為動作action。critic網(wǎng)絡(luò)的輸入是狀態(tài)state和動作action,輸出是Q值。算法的訓(xùn)練參數(shù)如表2所示。訓(xùn)練的最大輪數(shù)是400輪,每一輪的運動時間是30 s,分為3 000步,每一步0.01 s。訓(xùn)練時所有算法的訓(xùn)練參數(shù)相同。當機械臂的當前位置位于期望位置時視為誤差為0,期望位置會隨著時間的變化而變化,當時間步等于3 000步時當前跟蹤回合結(jié)束,結(jié)束后將機械臂復(fù)位,所有輸入機械臂的力都會被限制在(-100,100)。本文提出的多智能體深度強化學(xué)習輸出力矩時,力矩由PID agent 和 DDR agent 兩個智能體輸出的力矩組成。PID agent輸出的力矩用于維持整體的跟蹤效果,DDR agent輸出的力矩用于補償PID agent輸出的力矩。經(jīng)過實驗,將PID agent的最大力矩設(shè)置為總力矩的80%,DDR agent的最大力矩設(shè)置為總力矩的20%。本文將輸入機械臂的力矩限制在(-100,100),因此PID agent輸出的力矩被限制在(-80,80),DDR agent的力矩被限制在(-20,20)。最后MDRL的力矩由兩個agent的力矩相加后輸出。在仿真部分本文將設(shè)計兩個不同的跟蹤軌跡來測試所提算法的跟蹤泛性,并且添加隨機干擾來測試所提算法的抗干擾能力。

    3.2 仿真實驗1

    在仿真實驗1中,選擇非線性的跟蹤軌跡qd,其公式如下:

    qd=qd1 qd2T=sin(t) cos(t)T

    (19)

    其中:t∈[0,te],te=30 s是最大時間。實驗1中的測試跟蹤軌跡與訓(xùn)練時用的跟蹤軌跡一樣,本文使用這個軌跡對所有算法進行訓(xùn)練,訓(xùn)練過程如圖3所示。由于PID控制器以及BC預(yù)訓(xùn)練的加入,每個算法一開始的獎勵值可能有所不同。訓(xùn)練圖表明,沒有使用BC的MDRL由于系統(tǒng)本身的復(fù)雜性以及任務(wù)的復(fù)雜性導(dǎo)致訓(xùn)練失敗。TD3雖然訓(xùn)練過程中存在不穩(wěn)定的情況,但是其在訓(xùn)練的過程中也有表現(xiàn)較好的模型以及收斂趨勢。TD3 with PID只需要找到合適的控制器參數(shù)就可以達到很好的跟蹤效果,其任務(wù)本質(zhì)不難,很容易完成訓(xùn)練,因此BC所需的專家經(jīng)驗也可以很容易獲得,使用了BC降低MDRL的訓(xùn)練復(fù)雜性之后,MDRL則可以像其他算法一樣訓(xùn)練成功。跟蹤效果如圖4、5所示,跟蹤誤差如圖6、7所示,跟蹤過程中MDRL輸出的力矩信息如圖8、9所示。圖4~9表明,本文算法的整體跟蹤效果最優(yōu)。力矩輸出信息圖表明,在沒有干擾的情況下,誤差波動幅度不大,MDRL力矩主要由PID agent輸出來維持整體跟蹤效果,DDR agent只是在PID agent具有輸出振蕩時會補償一些力矩。為了更加直觀地展現(xiàn)差距,所有算法跟蹤過程中的誤差信息如表3所示,其中AE是指平均誤差,定義如下:

    AE=12(AE1+AE2)=12(1s∑si=1(qd1-q1)+1s∑si=1(qd2-q2))(20)

    其中:AE1是關(guān)節(jié)1的平均誤差;AE2是關(guān)節(jié)2的平均誤差。

    隨后為跟蹤環(huán)境中加入式(4)定義的隨機干擾,設(shè)置其干擾出現(xiàn)概率為20%,干擾大小范圍為(-200,200)來測試所提算法的抗干擾能力,實際擾動力如圖10、11所示。在具有干擾的環(huán)境中的跟蹤效果如圖12、13所示,跟蹤誤差如圖14、15所示,力矩輸出如圖16、17所示。為了力矩信息的可讀性,本文將所有力矩輸出圖的實際輸出力矩進行虛化處理,將平滑后的力矩數(shù)據(jù)變化線實化輸出。平均誤差隨著干擾出現(xiàn)概率增高的變化如圖14所示??梢钥闯?,所提算法具有很強的抗干擾能力。在具有干擾的情況下跟蹤誤差波動較大,DDR agent快速反應(yīng)輸出力矩進行補償,增強了控制器的抗干擾能力。

    添加了干擾的實驗結(jié)果表明,所提算法在添加了20%概率的干擾后整體誤差依然保持在0.031左右,整體誤差最低。隨著干擾的出現(xiàn),概率增加,DDR agent會對干擾進行快速反應(yīng),及時輸出相應(yīng)扭矩,大幅減小干擾的影響。相比對比算法,MDRL在高頻率干擾的環(huán)境下也表現(xiàn)出良好的跟蹤能力。驗證了本文算法具有強大的抗干擾能力,如圖18所示。

    3.3 仿真實驗2

    為了測試所提算法的泛化能力,本文設(shè)計了與訓(xùn)練軌跡不一樣的測試軌跡進行實驗。在本實驗中,非線性期望軌跡qd為

    qd=qd1qd2T=0.1sinπ2t+0.5cosπ3t0.1cosπ3t+0.5sinπ4t

    (21)

    仿真實驗2的跟蹤效果如圖19、20所示,跟蹤誤差如圖21、22所示,MDRL力矩輸出如圖23、24所示,詳細數(shù)據(jù)在表4中展示。

    以上實驗表明,在變換跟蹤軌跡之后,所提算法的跟蹤誤差保持在0.014,與對比算法相比最低。所提算法的跟蹤誤差甚至比更換軌跡前還低,這可能是因為跟蹤軌跡的最大幅度降低讓PID agent更加容易進行跟蹤。PID agent中的PID控制器是一種反饋控制器,agent只需要輸出合適的參數(shù),就可以在大部分軌跡上保持良好的跟蹤效果,只要控制對象不變,就可以保持良好的跟蹤效果。此實驗也證明所提算法具有強大的泛性能力。

    為實驗2的跟蹤添加相同的干擾,測試在非訓(xùn)練軌跡的跟蹤穩(wěn)定性,所添加的擾動大小與實驗1一樣如圖10、11所示。添加擾動后的實驗結(jié)果如圖25~28所示,跟蹤過程中MDRL輸出力矩如圖29、30所示。所有算法被添加的擾動都一樣,并且隨時間變化而變化,平均誤差隨著干擾出現(xiàn)概率增高的變化如圖31所示。

    添加擾動后的所有誤差詳細數(shù)據(jù)也在表4中展示,數(shù)據(jù)證明加入擾動后,相比于其他算法,所提算法在具有干擾以及變化的環(huán)境中都可以保持良好的跟蹤效果。此實驗證明所提算法在跟蹤不同軌跡的有效性以及跟蹤穩(wěn)定性上,在變換跟蹤軌跡后兩個agent的工作模式是不變的,都是PID agent維持整體跟蹤效果,在誤差波動大時DDR agent輸出力矩補償。

    4 結(jié)束語

    針對未知模型參數(shù)的2自由度機械臂在具有干擾以及變化的環(huán)境中的軌跡跟蹤問題,本文提出了一種結(jié)合行為克隆的多智能體深度強化學(xué)習控制算法解決問題。通過訓(xùn)練以及仿真結(jié)果表明:所提算法通過BC的加速預(yù)訓(xùn)練后可以收斂到更大的獎勵,可以跟蹤與訓(xùn)練軌跡不同的跟蹤軌跡,并且具有更強的抗干擾能力,同時它獨立于特定的神經(jīng)網(wǎng)絡(luò)模型,具有較高的可移植性,可以將算法移植到其他多自由度的機械臂控制任務(wù)當中。但是本文實驗只在二維平面進行建模仿真驗證深度強化控制算法的可行性,未來可在三維空間中進一步進行驗證實驗。

    參考文獻:

    [1]羅凱翔, 王援兵. 機械自動化技術(shù)在汽車制造中的應(yīng)用研究 [J]. 內(nèi)燃機與配件, 2024(17): 121-123. (Luo Kaixiang, Wang Yuanbing. Research on application of mechanical automation tech-nology in automotive manufacturing [J]. Internal Combustion Engine amp; Parts, 2024(17): 121-123.)

    [2]寧會峰, 周曉虎, 楊從堯. 面向光伏電站除塵作業(yè)的移動機械臂抗傾覆穩(wěn)定性研究 [J]. 太陽能學(xué)報, 2024, 45(8): 377-384. (Ning Huifeng, Zhou Xiaohu, Yang Congyao. Research on anti overturning stability of mobile manipulator for dust removal operation of photovoltaic power station [J]. Acta Energiae Solaris Sinica, 2024, 45(8): 377-384.)

    [3]楊繼紅. 基于自適應(yīng)控制算法的機械控制系統(tǒng)優(yōu)化研究 [J]. 模具制造, 2024, 24(7): 35-37. (Yang Jihong. Research on optimization of mechanical control system based on adaptive control algorithm [J]. Die amp; Mould Manufacture, 2024, 24(7): 35-37.)

    [4]溫瓊陽, 朱學(xué)軍, 李毅, 等. 基于改進粒子群算法的機械臂能耗軌跡優(yōu)化 [J]. 計算機應(yīng)用研究, 2024, 41(6): 1649-1655. (Wen Qiongyang, Zhu Xuejun, Li Yi, et al. Optimisation of energy consumption trajectory of robotic arm based on improved particle swarm algorithm [J]. Application Research of Computers, 2024, 41(6): 1649-1655.)

    [5]Ma Guoyao, Jiang Qi, Zong Xiju, et al. Trajectory tracking control strategy of robotic arm based on adaptive non-singular sliding mode[C]//Proc of IEEE International Conference on Real-Time Computing and Robotics. Piscataway,NJ: IEEE Press, 2023: 532-537.

    [6]Soltanpour M R, Khooban M H. A particle swarm optimization approach for fuzzy sliding mode control for tracking the robot manipulator [J]. Nonlinear Dynamics, 2013, 74(1): 467-478.

    [7]Carron A, Arcari E, Wermelinger M, et al. Data-driven model predictive control for trajectory tracking with a robotic arm [J]. IEEE Robotics and Automation Letters, 2019, 4(4): 3758-3765.

    [8]羅疏桐, 宋自根. 基于Hopf振蕩器的Spiking-CPG六足機器人步態(tài)運動控制 [J]. 計算機應(yīng)用研究, 2024, 41(10): 3053-3058. (Luo Shutong, Song Zigen. Gait locomotion of hexapod robot based on Spiking-CPG neural system using Hopf oscillator [J]. Application Research of Computers, 2024, 41(10): 3053-3058.)

    [9]Yang Zeqi, Peng Jinzhu, Liu Yanhong. Adaptive neural network force tracking impedance control for uncertain robotic manipulator based on nonlinear velocity observer [J]. Neurocomputing, 2019, 331: 263-280.

    [10]Xu Kun, Wang Zhiliang. The design of a neural network-based adaptive control method for robotic arm trajectory tracking [J]. Neural Computing and Applications, 2023, 35(12): 8785-8795.

    [11]Baghbani F, Akbarzadeh-T M R. Adaptive emotional neuro control for a class of uncertain affine nonlinear systems[C]// Proc of the 28th Iranian Conference on Electrical Engineering. Piscataway,NJ: IEEE Press, 2020: 1-5.

    [12]Liu Chunming, Xu Xin, Hu Dewen. Multiobjective reinforcement learning:a comprehensive overview [J]. IEEE Trans on Systems, Man, and Cybernetics: Systems, 2015, 45(3): 385-398.

    [13]Shao Yanpeng, Zhou Haibo, Zhao Shuaishuai,et al. A control method of robotic arm based on improved deep deterministic policy gradient[C]// Proc of IEEE International Conference on Mechatronics and Automation. Piscataway,NJ: IEEE Press, 2023: 473-478.

    [14]Yang Shilin, Wang Qingling. Robotic arm motion planning with autonomous obstacle avoidance based on deep reinforcement learning[C]// Proc of the 41st Chinese Control Conference. Piscataway,NJ: IEEE Press, 2022: 3692-3697.

    [15]趙春宇, 賴俊, 陳希亮, 等. 一種基于梯度的多智能體元深度強化學(xué)習算法 [J]. 計算機應(yīng)用研究, 2024, 41(5): 1356-1361. (Zhao Chunyu, Lai Jun, Chen Xiliang, et al. Gradient-based multi-agent meta deep reinforcement learning algorithm [J]. Application Research of Computers, 2024, 41(5): 1356-1361.)

    [16]AlaghaA, Mizouni R, Bentahar J, et al. Multiagent deep reinforcement learning with demonstration cloning for target localization [J]. IEEE Internet of Things Journal, 2023, 10(15): 13556-13570.

    [17]Ali Shahid A, Sesin J S V, Pecioski D, et al. Decentralized multi-agent control of a manipulator in continuous task learning [J]. Applied Sciences, 2021, 11(21): 10227.

    [18]王晶. 基于解耦多智能體深度強化學(xué)習的機械臂裝配研究[D]. 武漢: 武漢紡織大學(xué), 2023. (Wang Jing. Research on mechanical arm assembly based on decoupling multi-agent deep reinforcement learning[D]. Wuhan: Wuhan Textile University, 2023.)

    [19]羊波, 王琨, 馬祥祥, 等. 多智能體強化學(xué)習的機械臂運動控制決策研究 [J]. 計算機工程與應(yīng)用, 2023, 59(6): 318-325. (Yang Bo, Wang Kun, Ma Xiangxiang, et al. Research on motion control method of manipulator based on reinforcement learning [J]. Computer Engineering and Applications, 2023, 59(6): 318-325.)

    [20]Choi J, Kim H, Son Y, et al. Robotic behavioral cloning through task building[C]//Proc of International Conference on Information and Communication Technology Convergence. Piscataway,NJ: IEEE Press, 2020: 1279-1281.

    [21]代戰(zhàn)勝. 多自由度機械臂關(guān)節(jié)角度自動控制方法設(shè)計研究 [J]. 商丘職業(yè)技術(shù)學(xué)院學(xué)報, 2024, 23(4): 81-86. (Dai Zhansheng. Design and research of automatic joint angle control method for multi-degree-of-freedom manipulators [J]. Journal of Shangqiu Polytechnic, 2024, 23(4): 81-86.)

    [22]黃毅航. 復(fù)雜工況下機械臂系統(tǒng)的控制策略研究[D]. 徐州: 中國礦業(yè)大學(xué), 2023. (Huang Yihang. Research on control strategy of manipulator system under complex working conditions[D]. Xuzhou: China University of Mining and Technology, 2023.)

    [23]方立平, 陳遠明, 楊哲, 等. 基于改進TD3算法的機器人路徑規(guī)劃 [J]. 齊魯工業(yè)大學(xué)學(xué)報, 2024, 38(4): 1-9. (Fang Liping, Chen Yuanming, Yang Zhe, et al. Robot path planning based on improved TD3 algorithm [J]. Journal of Qilu University of Techno-logy, 2024, 38(4): 1-9.)

    [24]秦浩, 李雙益, 趙迪, 等. 基于行為克隆的高通量衛(wèi)星通信頻譜資源分配 [J]. 通信學(xué)報, 2024, 45(5): 101-114. (Qin Hao, Li Shuangyi, Zhao Di, et al. Spectrum resource allocation for high-throughput satellite communications based on behavior cloning [J]. Journal on Communications, 2024, 45(5): 101-114.)

    [25]杜金清, 謝艷新, 趙子萱, 等. 基于PID控制算法的恒溫控制器設(shè)計與研究 [J]. 無線互聯(lián)科技, 2024, 21(10): 43-49. (Du Jinqing, Xie Yanxin, Zhao Zixuan, et al. Design and research for thermostatic controller based on PID control algorithm [J]. Wireless Internet Science and Technology, 2024, 21(10): 43-49.)

    [26]王晶, 蘇工兵, 袁夢, 等. 基于DE-MADDPG多智能體強化學(xué)習機械臂裝配 [J]. 組合機床與自動化加工技術(shù), 2023(12): 183-187, 192. (Wang Jing, Su Gongbing, Yuan Meng, et al. Based on DE-MADDPG multi-agent reinforcement learning robotic arm assembly [J]. Modular Machine Tool amp; Automatic Manufacturing Technique, 2023(12): 183-187, 192.)

    [27]黃煜銘. 應(yīng)用于機器人環(huán)境下稀疏獎勵問題的深度強化學(xué)習算法研究[D]. 東莞: 東莞理工學(xué)院, 2024. (Huang Yuming. Research on deep reinforcement learning algorithm for sparse reward problem in robot environment[D]. Dongguan: Dongguan Institute of Technology, 2024.)

    [28]王吉富. 稀疏獎勵場景下的事后經(jīng)驗回放機制研究[D]. 長沙: 湖南大學(xué), 2023. (Wang Jifu. Research on afterwards experience playback mechanism in sparse reward scenario[D]. Changsha: Hunan University, 2023.)

    [29]張夢杰, 陳姚節(jié), 鄧江. 改進TD3算法在電機PID控制器中的應(yīng)用 [J]. 計算機系統(tǒng)應(yīng)用, 2024, 33(5): 262-270. (Zhang Mengjie, Chen Yaojie, Deng Jiang. Application of improved TD3 algorithm in motor PID controllers [J]. Computer Systems and Applications, 2024, 33(5): 262-270.)

    [30]張強, 文聞, 周曉東, 等. 基于改進TD3算法的機械臂智能規(guī)劃方法研究 [J]. 智能科學(xué)與技術(shù)學(xué)報, 2022, 4(2): 223-232. (Zhang Qiang, Wen Wen, Zhou Xiaodong, et al. Research on the manipulator intelligent trajectory planning method based on the improved TD3 algorithm [J]. Chinese Journal of Intelligent Science and Technology, 2022, 4(2): 223-232.)

    猜你喜歡
    機械智能
    機械革命Code01
    電腦報(2020年35期)2020-09-17 13:25:53
    調(diào)試機械臂
    當代工人(2020年8期)2020-05-25 09:07:38
    ikbc R300機械鍵盤
    電腦報(2019年40期)2019-09-10 07:22:44
    智能制造 反思與期望
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    智能制造·AI未來
    商周刊(2018年18期)2018-09-21 09:14:46
    簡單機械
    狠狠狠狠99中文字幕| 欧美日本视频| 99热这里只有是精品在线观看| av在线播放精品| 综合色丁香网| 亚洲18禁久久av| 日日啪夜夜撸| 亚洲专区国产一区二区| 欧美绝顶高潮抽搐喷水| 最近最新中文字幕大全电影3| 99久国产av精品| 麻豆国产av国片精品| 欧美成人a在线观看| 成年女人永久免费观看视频| 黄片wwwwww| 亚洲电影在线观看av| 国产白丝娇喘喷水9色精品| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲av不卡在线观看| 国产精品伦人一区二区| 最近的中文字幕免费完整| 日韩欧美三级三区| 亚洲乱码一区二区免费版| 亚洲av中文av极速乱| 成人亚洲欧美一区二区av| 亚洲国产精品合色在线| 免费一级毛片在线播放高清视频| 极品教师在线视频| 熟女人妻精品中文字幕| 99久国产av精品国产电影| av视频在线观看入口| 综合色av麻豆| 亚洲熟妇中文字幕五十中出| 国产精品av视频在线免费观看| 久久久午夜欧美精品| 久久热精品热| 国产极品精品免费视频能看的| 看免费成人av毛片| av专区在线播放| 淫妇啪啪啪对白视频| 最近最新中文字幕大全电影3| 中文在线观看免费www的网站| 性欧美人与动物交配| 99热6这里只有精品| 亚洲成人久久爱视频| 亚洲成人久久爱视频| 国产黄色视频一区二区在线观看 | 久久久色成人| 精品久久国产蜜桃| 精品午夜福利在线看| 国产精品一区二区三区四区久久| 99热网站在线观看| 国产高清激情床上av| 久久国产乱子免费精品| 午夜影院日韩av| 五月伊人婷婷丁香| 久久欧美精品欧美久久欧美| 亚洲精品日韩av片在线观看| 久久精品国产清高在天天线| 91在线精品国自产拍蜜月| 女人十人毛片免费观看3o分钟| 99九九线精品视频在线观看视频| 淫秽高清视频在线观看| 最近视频中文字幕2019在线8| 久久精品影院6| АⅤ资源中文在线天堂| 久久久久久国产a免费观看| 男女边吃奶边做爰视频| 九九热线精品视视频播放| 床上黄色一级片| 精品午夜福利在线看| 国产国拍精品亚洲av在线观看| 男女做爰动态图高潮gif福利片| 美女免费视频网站| 日韩中字成人| 搡老岳熟女国产| 少妇被粗大猛烈的视频| 精品久久久久久久久亚洲| 欧美bdsm另类| 91av网一区二区| 国产不卡一卡二| 国产高清激情床上av| 国产一区亚洲一区在线观看| 99热只有精品国产| 国产男人的电影天堂91| 五月玫瑰六月丁香| 亚洲熟妇中文字幕五十中出| 我要搜黄色片| videossex国产| 国产美女午夜福利| aaaaa片日本免费| 成人二区视频| 国产精品永久免费网站| 精品久久久久久久久久免费视频| 国产欧美日韩精品一区二区| 中国美白少妇内射xxxbb| 欧美不卡视频在线免费观看| 99视频精品全部免费 在线| av在线蜜桃| 国产av在哪里看| 少妇人妻一区二区三区视频| 久久精品国产自在天天线| 免费电影在线观看免费观看| 久久久久久久午夜电影| 欧美一区二区亚洲| 性插视频无遮挡在线免费观看| 18禁在线无遮挡免费观看视频 | 精品一区二区三区av网在线观看| 可以在线观看毛片的网站| 中国美白少妇内射xxxbb| 成人高潮视频无遮挡免费网站| 亚洲国产日韩欧美精品在线观看| 国产精品不卡视频一区二区| 黄色一级大片看看| 久久精品91蜜桃| 国产男靠女视频免费网站| 男女做爰动态图高潮gif福利片| 少妇的逼好多水| 国产精品爽爽va在线观看网站| 国产老妇女一区| h日本视频在线播放| 在线观看66精品国产| 免费在线观看影片大全网站| 日韩精品青青久久久久久| 日韩中字成人| 国产一区亚洲一区在线观看| 国产精品女同一区二区软件| 欧美xxxx黑人xx丫x性爽| 国产成人aa在线观看| 色av中文字幕| av黄色大香蕉| 欧美高清成人免费视频www| 黄色配什么色好看| 在线观看免费视频日本深夜| ponron亚洲| 人人妻人人澡欧美一区二区| 精品国产三级普通话版| 99久久精品热视频| 国产一区亚洲一区在线观看| 最近视频中文字幕2019在线8| av在线播放精品| 一边摸一边抽搐一进一小说| 麻豆国产av国片精品| 热99re8久久精品国产| 99热这里只有精品一区| 中文字幕久久专区| 久久久久久久久久成人| 国产极品精品免费视频能看的| 国产三级在线视频| 免费不卡的大黄色大毛片视频在线观看 | 99久久无色码亚洲精品果冻| 丝袜美腿在线中文| 97热精品久久久久久| 最近2019中文字幕mv第一页| 久久精品国产亚洲av天美| 国产在线男女| av福利片在线观看| 中文字幕av成人在线电影| 少妇被粗大猛烈的视频| 亚洲国产欧美人成| 国产精品久久久久久av不卡| 日韩亚洲欧美综合| 精品日产1卡2卡| 日本一本二区三区精品| 国产伦一二天堂av在线观看| 女同久久另类99精品国产91| 久久热精品热| 精品国产三级普通话版| 国产精品日韩av在线免费观看| 少妇猛男粗大的猛烈进出视频 | 黄色配什么色好看| 日本黄大片高清| 最新中文字幕久久久久| 国产一区二区在线av高清观看| 午夜亚洲福利在线播放| 久久久色成人| 桃色一区二区三区在线观看| 日韩大尺度精品在线看网址| 亚洲无线观看免费| 久久精品91蜜桃| eeuss影院久久| 天堂√8在线中文| 日韩成人av中文字幕在线观看 | 亚洲色图av天堂| 人妻夜夜爽99麻豆av| 精品久久久久久久久亚洲| 97在线视频观看| 亚洲婷婷狠狠爱综合网| 桃色一区二区三区在线观看| 可以在线观看毛片的网站| 欧美激情国产日韩精品一区| 亚洲中文字幕日韩| 成人三级黄色视频| 日韩三级伦理在线观看| 成人漫画全彩无遮挡| 日韩亚洲欧美综合| 成人亚洲精品av一区二区| 赤兔流量卡办理| 国产白丝娇喘喷水9色精品| 国产精品久久久久久亚洲av鲁大| 久久精品影院6| 亚洲va在线va天堂va国产| 免费看av在线观看网站| 成人欧美大片| 精品不卡国产一区二区三区| 欧美+亚洲+日韩+国产| 国产精品一及| 深爱激情五月婷婷| 精品久久久久久久末码| 一进一出抽搐动态| 亚洲天堂国产精品一区在线| 国产伦精品一区二区三区四那| 99视频精品全部免费 在线| 国产三级在线视频| 舔av片在线| 欧美成人a在线观看| 秋霞在线观看毛片| 精品久久久久久久久久免费视频| 日韩,欧美,国产一区二区三区 | 亚洲国产色片| 99热这里只有精品一区| 国产av麻豆久久久久久久| 国产视频一区二区在线看| 色综合亚洲欧美另类图片| 国产精品女同一区二区软件| 亚洲四区av| 午夜精品国产一区二区电影 | 色在线成人网| 一进一出好大好爽视频| 嫩草影院新地址| 中文字幕精品亚洲无线码一区| 国产乱人偷精品视频| 内射极品少妇av片p| 麻豆久久精品国产亚洲av| 国产精品一及| 免费搜索国产男女视频| 在线看三级毛片| 看片在线看免费视频| 小说图片视频综合网站| 亚洲国产精品sss在线观看| 亚洲内射少妇av| 俺也久久电影网| 尤物成人国产欧美一区二区三区| 亚洲国产精品合色在线| 搡老岳熟女国产| 欧美一区二区国产精品久久精品| 国内精品宾馆在线| 久久久久久久亚洲中文字幕| 色综合色国产| 2021天堂中文幕一二区在线观| 免费不卡的大黄色大毛片视频在线观看 | 大型黄色视频在线免费观看| 天堂√8在线中文| 毛片一级片免费看久久久久| 又爽又黄无遮挡网站| 国产精品野战在线观看| 在线观看66精品国产| av国产免费在线观看| av在线天堂中文字幕| 老司机影院成人| 久久久久久久久久久丰满| 日本熟妇午夜| 91av网一区二区| 一区二区三区四区激情视频 | 99热这里只有精品一区| 天天一区二区日本电影三级| 久久欧美精品欧美久久欧美| 久久精品综合一区二区三区| 久久午夜亚洲精品久久| 国产aⅴ精品一区二区三区波| 亚洲色图av天堂| 99久久精品热视频| 99国产精品一区二区蜜桃av| 久久草成人影院| 国产伦在线观看视频一区| 蜜臀久久99精品久久宅男| 综合色av麻豆| 51国产日韩欧美| 国产av麻豆久久久久久久| 日韩一本色道免费dvd| 长腿黑丝高跟| 国产真实乱freesex| 日日摸夜夜添夜夜添小说| 寂寞人妻少妇视频99o| 亚洲一级一片aⅴ在线观看| 丝袜美腿在线中文| 亚洲第一电影网av| 成人亚洲欧美一区二区av| 亚洲综合色惰| 亚洲欧美清纯卡通| 丝袜喷水一区| 悠悠久久av| 日韩强制内射视频| 美女 人体艺术 gogo| 天堂av国产一区二区熟女人妻| 日韩欧美 国产精品| 九色成人免费人妻av| 亚洲欧美中文字幕日韩二区| 亚洲av中文字字幕乱码综合| 中文字幕av成人在线电影| 麻豆国产97在线/欧美| 男人和女人高潮做爰伦理| 青春草视频在线免费观看| 国内精品美女久久久久久| 欧美一区二区国产精品久久精品| 热99re8久久精品国产| 特级一级黄色大片| avwww免费| 丝袜美腿在线中文| 亚洲图色成人| 亚洲人成网站在线播放欧美日韩| 亚洲综合色惰| 亚洲最大成人手机在线| 成人美女网站在线观看视频| 人妻夜夜爽99麻豆av| a级毛片a级免费在线| 国产精品伦人一区二区| 网址你懂的国产日韩在线| 久久精品国产清高在天天线| 久久午夜亚洲精品久久| 中文字幕久久专区| 午夜福利在线在线| 日本爱情动作片www.在线观看 | 你懂的网址亚洲精品在线观看 | 久久99热6这里只有精品| 三级男女做爰猛烈吃奶摸视频| 夜夜爽天天搞| 天美传媒精品一区二区| 色播亚洲综合网| 中文字幕免费在线视频6| 久久久久久久久久成人| 日韩欧美精品v在线| 最近中文字幕高清免费大全6| 内地一区二区视频在线| 老熟妇乱子伦视频在线观看| 草草在线视频免费看| 午夜老司机福利剧场| 免费看日本二区| 日韩精品中文字幕看吧| 97热精品久久久久久| 国产久久久一区二区三区| 高清午夜精品一区二区三区 | 国产一区二区三区av在线 | 一级毛片久久久久久久久女| 一卡2卡三卡四卡精品乱码亚洲| 国产成人freesex在线 | 99热这里只有是精品在线观看| 国产成人一区二区在线| 黄片wwwwww| 日韩高清综合在线| 成人欧美大片| 神马国产精品三级电影在线观看| 中文字幕熟女人妻在线| 晚上一个人看的免费电影| 黄色日韩在线| 国产高清视频在线观看网站| 99热这里只有是精品在线观看| 国产伦在线观看视频一区| 婷婷六月久久综合丁香| 日本欧美国产在线视频| 欧美一级a爱片免费观看看| 亚洲av中文av极速乱| 免费看美女性在线毛片视频| 亚洲美女搞黄在线观看 | 亚洲无线在线观看| 国产v大片淫在线免费观看| av.在线天堂| 久久精品影院6| 日韩 亚洲 欧美在线| 欧美激情国产日韩精品一区| 久久婷婷人人爽人人干人人爱| 免费观看的影片在线观看| 少妇的逼水好多| 村上凉子中文字幕在线| 亚洲av第一区精品v没综合| 久久精品国产鲁丝片午夜精品| 色哟哟哟哟哟哟| 中国国产av一级| 九九爱精品视频在线观看| 国产白丝娇喘喷水9色精品| 国产高清激情床上av| 男插女下体视频免费在线播放| 精品国内亚洲2022精品成人| .国产精品久久| 91av网一区二区| 18禁在线无遮挡免费观看视频 | 亚洲精品成人久久久久久| 国产av不卡久久| 99热全是精品| 一级毛片aaaaaa免费看小| 国内精品美女久久久久久| 久久久精品欧美日韩精品| 国产久久久一区二区三区| 成年女人看的毛片在线观看| 欧美精品国产亚洲| 免费看av在线观看网站| 国产亚洲精品久久久久久毛片| 十八禁网站免费在线| 欧美3d第一页| 久久久久国产精品人妻aⅴ院| 天堂动漫精品| 久久精品国产亚洲网站| 女同久久另类99精品国产91| 欧美日韩乱码在线| 免费人成在线观看视频色| 久久亚洲精品不卡| 国产美女午夜福利| 亚洲国产高清在线一区二区三| av在线天堂中文字幕| 天堂影院成人在线观看| 精品人妻偷拍中文字幕| 午夜亚洲福利在线播放| 真实男女啪啪啪动态图| 午夜福利高清视频| 天美传媒精品一区二区| 男女那种视频在线观看| 亚洲av中文av极速乱| 免费人成视频x8x8入口观看| 免费黄网站久久成人精品| 国产免费一级a男人的天堂| 女人十人毛片免费观看3o分钟| 精品国内亚洲2022精品成人| 18禁黄网站禁片免费观看直播| 国产欧美日韩一区二区精品| 一个人看视频在线观看www免费| 婷婷六月久久综合丁香| 麻豆成人午夜福利视频| 黄色一级大片看看| 国产成人福利小说| 亚洲av电影不卡..在线观看| 色哟哟哟哟哟哟| 嫩草影院新地址| 国产欧美日韩精品一区二区| 日本 av在线| 最近的中文字幕免费完整| 免费av不卡在线播放| 日韩强制内射视频| 国产在视频线在精品| 婷婷精品国产亚洲av在线| 色播亚洲综合网| av专区在线播放| 国产不卡一卡二| 韩国av在线不卡| av福利片在线观看| 中文字幕熟女人妻在线| 午夜久久久久精精品| 日本与韩国留学比较| 日本欧美国产在线视频| 国产精品乱码一区二三区的特点| 久久久久久久久久黄片| 久久精品国产99精品国产亚洲性色| 小说图片视频综合网站| 91久久精品国产一区二区三区| 级片在线观看| 国产男靠女视频免费网站| 午夜老司机福利剧场| 欧美激情国产日韩精品一区| 五月玫瑰六月丁香| 亚洲av不卡在线观看| 日日啪夜夜撸| 午夜福利视频1000在线观看| 亚洲成人中文字幕在线播放| 国产精品一及| 久久精品国产99精品国产亚洲性色| 午夜福利在线观看免费完整高清在 | 国产精品一及| 99在线视频只有这里精品首页| 成人高潮视频无遮挡免费网站| 国产av不卡久久| 亚洲不卡免费看| 国产乱人视频| 欧美xxxx黑人xx丫x性爽| 国产伦在线观看视频一区| 亚洲内射少妇av| 欧美另类亚洲清纯唯美| 波多野结衣高清无吗| 日韩高清综合在线| 日本熟妇午夜| 亚洲国产欧美人成| 在线播放国产精品三级| 亚洲精品日韩av片在线观看| 亚洲成人久久爱视频| 亚洲专区国产一区二区| 国产精品女同一区二区软件| 国产探花在线观看一区二区| 日韩精品有码人妻一区| 秋霞在线观看毛片| 永久网站在线| 久久午夜福利片| 亚洲欧美日韩东京热| 综合色av麻豆| 亚洲av成人精品一区久久| 国产精品无大码| 非洲黑人性xxxx精品又粗又长| 亚洲人成网站在线播放欧美日韩| 18禁在线播放成人免费| 又黄又爽又刺激的免费视频.| 日本与韩国留学比较| 国产真实乱freesex| 一级黄色大片毛片| 欧美一区二区亚洲| 桃色一区二区三区在线观看| 成年版毛片免费区| 国产精品精品国产色婷婷| 观看免费一级毛片| 日本色播在线视频| 日本撒尿小便嘘嘘汇集6| 不卡一级毛片| 美女内射精品一级片tv| 久久鲁丝午夜福利片| 91久久精品国产一区二区三区| 又爽又黄a免费视频| 男女下面进入的视频免费午夜| 国产日本99.免费观看| 日本黄色视频三级网站网址| 男女视频在线观看网站免费| 搡老熟女国产l中国老女人| 变态另类丝袜制服| 国产 一区 欧美 日韩| 免费看a级黄色片| 最近的中文字幕免费完整| 免费在线观看影片大全网站| 午夜福利视频1000在线观看| av天堂中文字幕网| 少妇猛男粗大的猛烈进出视频 | 亚洲国产精品成人综合色| 欧美日韩国产亚洲二区| or卡值多少钱| 波多野结衣巨乳人妻| 变态另类丝袜制服| 欧美最黄视频在线播放免费| 久久人人爽人人爽人人片va| 最近最新中文字幕大全电影3| 高清日韩中文字幕在线| 高清毛片免费看| 最新中文字幕久久久久| 人妻久久中文字幕网| 国产一区二区三区av在线 | 99热这里只有是精品在线观看| 久久热精品热| 久久久国产成人免费| 日本-黄色视频高清免费观看| 免费人成视频x8x8入口观看| 伦理电影大哥的女人| 日日干狠狠操夜夜爽| 久久精品国产亚洲av涩爱 | 丰满乱子伦码专区| 亚洲中文日韩欧美视频| 国产国拍精品亚洲av在线观看| 一级毛片aaaaaa免费看小| 国产一区二区亚洲精品在线观看| 真人做人爱边吃奶动态| 97在线视频观看| 精品一区二区三区av网在线观看| 亚洲av美国av| 成人美女网站在线观看视频| 美女黄网站色视频| 久久久a久久爽久久v久久| 亚洲精品色激情综合| 亚洲av成人精品一区久久| 免费电影在线观看免费观看| 国产精品永久免费网站| 亚洲成人精品中文字幕电影| 欧美中文日本在线观看视频| 97人妻精品一区二区三区麻豆| 91精品国产九色| 在线观看一区二区三区| 国产av一区在线观看免费| 日韩欧美一区二区三区在线观看| 国内久久婷婷六月综合欲色啪| 久久久久久伊人网av| 最近最新中文字幕大全电影3| 99久久中文字幕三级久久日本| 中文字幕人妻熟人妻熟丝袜美| 久久中文看片网| 男女那种视频在线观看| 免费高清视频大片| 天堂av国产一区二区熟女人妻| 国产一区二区三区在线臀色熟女| 国产精品亚洲美女久久久| 日日干狠狠操夜夜爽| 国产精品1区2区在线观看.| 性插视频无遮挡在线免费观看| 色综合色国产| 18禁裸乳无遮挡免费网站照片| 插逼视频在线观看| 国产片特级美女逼逼视频| 天天躁夜夜躁狠狠久久av| 国产麻豆成人av免费视频| 日韩精品青青久久久久久| 最新在线观看一区二区三区| 亚洲美女黄片视频| 蜜桃亚洲精品一区二区三区| www日本黄色视频网| 国内久久婷婷六月综合欲色啪| 99久久中文字幕三级久久日本| 国产色婷婷99| or卡值多少钱| 搞女人的毛片| 毛片一级片免费看久久久久| 熟女电影av网| 国产美女午夜福利| 国产三级在线视频| 校园春色视频在线观看| 91麻豆精品激情在线观看国产| 亚洲av成人精品一区久久| 久久久久久久午夜电影| 久久久久久久久久成人| 免费人成视频x8x8入口观看| 波野结衣二区三区在线| 最后的刺客免费高清国语| 欧美三级亚洲精品| 国产精品美女特级片免费视频播放器| 99国产极品粉嫩在线观看| 亚洲av不卡在线观看|