• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合先驗(yàn)知識(shí)與引導(dǎo)策略搜索的機(jī)器人軸孔裝配方法

    2025-04-30 00:00:00陳豪杰董青衛(wèi)劉銳楷曾鵬

    摘 要:在現(xiàn)代工業(yè)自動(dòng)化領(lǐng)域,機(jī)器人執(zhí)行復(fù)雜裝配任務(wù)的能力至關(guān)重要。盡管強(qiáng)化學(xué)習(xí)為機(jī)器人策略學(xué)習(xí)提供了一種有效途徑,但在裝配任務(wù)的策略訓(xùn)練初始階段存在采樣效率低和樣本質(zhì)量差的問(wèn)題,導(dǎo)致算法收斂速度慢,容易陷入局部最優(yōu)解。針對(duì)上述問(wèn)題,提出了一種融合先驗(yàn)知識(shí)與引導(dǎo)策略搜索算法的機(jī)器人軌跡規(guī)劃方法。該方法首先利用人類專家演示和歷史任務(wù)數(shù)據(jù)的先驗(yàn)知識(shí)來(lái)構(gòu)建初始策略,并將先驗(yàn)知識(shí)保留在經(jīng)驗(yàn)池中,以提高學(xué)習(xí)效率;隨后,通過(guò)引導(dǎo)策略搜索算法對(duì)初始策略進(jìn)行在線優(yōu)化,逐步提升策略的精確度和適應(yīng)性;最后,通過(guò)機(jī)器人軸孔裝配任務(wù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,該方法顯著提高了策略學(xué)習(xí)效率,減少了訓(xùn)練時(shí)間和試錯(cuò)次數(shù)。研究表明,融合先驗(yàn)知識(shí)的方法可以有效提高強(qiáng)化學(xué)習(xí)學(xué)習(xí)效率,使機(jī)器人快速得到能夠完成裝配任務(wù)的策略。

    關(guān)鍵詞:強(qiáng)化學(xué)習(xí);先驗(yàn)知識(shí);引導(dǎo)策略搜索;策略優(yōu)化;軸孔裝配任務(wù)

    中圖分類號(hào):TP391"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-007-1018-07

    doi: 10.19734/j.issn.1001-3695.2024.08.0324

    Robotic pin-hole assembly method integrating prior knowledge and guided policy search

    Chen Haojie1,2,3,4, Dong Qingwei1,2,3,4, Liu Ruikai1,2,3,4, Zeng Peng1,2,3

    (1.State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China; 2. Key Laboratory of Networked Control Systems, Chinese Academy of Sciences, Shenyang 110016, China; 3. Institutes for Robotics amp; Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang 110169, China; 4. University of Chinese Academy of Sciences, Beijing 100049, China)

    Abstract:In modern industrial automation, robots play a crucial role in performing complex assembly tasks. Reinforcement learning provides an effective approach for robot strategy learning, but it encounters challenges such as low sampling efficiency and poor sample quality during the early stages of strategy training. These challenges slow down algorithm convergence and increase the risk of getting stuck in local optima. To address these issues, this paper presented a robot trajectory planning method that integrated prior knowledge with the guided policy search algorithm. The method drew on prior knowledge from human expert demonstrations and historical task data to build an initial policy and stored this knowledge in an experience pool to improve learning efficiency. The guided policy search algorithm optimized the policy online, gradually enhancing the precision and adaptability of the strategy. The research team conducted experiments on a robotic pin-hole assembly task and found that this method significantly improved strategy learning efficiency, reduced training time, and minimized trial-and-error iterations. The results show that integrating prior knowledge effectively improves the learning efficiency of reinforcement lear-ning, allowing robots to quickly obtain strategies that can complete assembly tasks.

    Key words:reinforcement learning; prior knowledge; guided policy search; policy optimization; pin-hole assembly task

    0 引言

    在現(xiàn)代工業(yè)生產(chǎn)中,機(jī)器人在執(zhí)行結(jié)構(gòu)化環(huán)境中的重復(fù)性任務(wù)時(shí)發(fā)揮著重要作用[1, 2]。然而,對(duì)于自動(dòng)化領(lǐng)域的前沿任務(wù),例如軸孔裝配任務(wù),這類要求機(jī)器人高度適應(yīng)性和涉及復(fù)雜接觸動(dòng)力學(xué)的任務(wù)難以用傳統(tǒng)自動(dòng)化技術(shù)完成[3, 4]。軸孔裝配任務(wù)本質(zhì)上是一個(gè)具有物理約束和復(fù)雜接觸動(dòng)力學(xué)的路徑規(guī)劃問(wèn)題。在實(shí)際操作中,傳統(tǒng)方法需要進(jìn)行大量設(shè)置和重編程來(lái)適應(yīng)新環(huán)境,同時(shí)還需要控制接觸力,以避免過(guò)大接觸力導(dǎo)致設(shè)備損壞。為了減小軸孔裝配過(guò)程中接觸力帶來(lái)的不利影響,研究人員通常在傳統(tǒng)方法中引入柔順裝配?,F(xiàn)有柔順控制方法分為主動(dòng)柔順和被動(dòng)柔順策略[5]。被動(dòng)柔順策略通過(guò)機(jī)械結(jié)構(gòu)的形變來(lái)順應(yīng)外力,盡管實(shí)現(xiàn)簡(jiǎn)單,但控制精度和適應(yīng)性較差;而主動(dòng)柔順策略通過(guò)機(jī)器人控制算法實(shí)時(shí)調(diào)整末端位姿以順應(yīng)外界環(huán)境,常用的主動(dòng)柔順策略有力/位混合控制和阻抗控制。這些策略雖然能夠處理已知或結(jié)構(gòu)化環(huán)境中的外力干擾,但依賴一定的系統(tǒng)建模,在應(yīng)對(duì)未知干擾或復(fù)雜的非結(jié)構(gòu)化環(huán)境存在局限性。因此,需要一種不依賴系統(tǒng)建模的智能算法,來(lái)完成非結(jié)構(gòu)化環(huán)境下的裝配任務(wù)。

    近些年來(lái),國(guó)內(nèi)外學(xué)者將研究重心轉(zhuǎn)向強(qiáng)化學(xué)習(xí)領(lǐng)域[6~8]。強(qiáng)化學(xué)習(xí)(RL)通過(guò)試錯(cuò)機(jī)制使機(jī)器人與環(huán)境交互,并通過(guò)最大化累計(jì)獎(jiǎng)勵(lì)的方式,使其無(wú)須了解詳細(xì)的接觸動(dòng)力學(xué)信息即可學(xué)習(xí)有效的控制策略[9]。具體來(lái)說(shuō),Lillicrap等人[10]開(kāi)發(fā)的DDPG算法,結(jié)合深度神經(jīng)網(wǎng)絡(luò)與確定性策略,適用于需要高精度對(duì)準(zhǔn)和插入操作的連續(xù)控制任務(wù)。Schulman等人[11]提出的PPO算法,通過(guò)策略梯度方法的簡(jiǎn)化與改進(jìn),在探索與利用之間取得了很好的平衡,并實(shí)現(xiàn)對(duì)連續(xù)動(dòng)作空間的精確控制。Haarnoja等人[12]提出的SAC算法,通過(guò)融合最大熵策略與離策略學(xué)習(xí)方法,為裝配任務(wù)帶來(lái)了穩(wěn)定而高效的學(xué)習(xí)過(guò)程,顯著提升了成功率。Levine等人[13]開(kāi)發(fā)的GPS算法,通過(guò)環(huán)境交互數(shù)據(jù)的收集和模型預(yù)測(cè)與實(shí)際操作反饋的結(jié)合,有效完成了復(fù)雜的裝配任務(wù)。盡管強(qiáng)化學(xué)習(xí)在機(jī)器人控制領(lǐng)域取得了一定進(jìn)展,克服了傳統(tǒng)控制方法對(duì)環(huán)境狀態(tài)變化適應(yīng)能力差的問(wèn)題,但仍有一些方面存在不足。強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)訓(xùn)練的初始階段,往往會(huì)遇到連續(xù)狀態(tài)動(dòng)作空間采樣效率不高和樣本質(zhì)量較差的問(wèn)題,進(jìn)而減緩了獎(jiǎng)勵(lì)函數(shù)的收斂速度。此外,如果策略探索不充分或獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)不夠理想,訓(xùn)練過(guò)程容易陷入局部最優(yōu)解,對(duì)訓(xùn)練結(jié)果產(chǎn)生不利影響。

    針對(duì)策略學(xué)習(xí)過(guò)程中出現(xiàn)的不足,申偉霖等人[14]提出了USAGE自主探索算法。該算法結(jié)合均勻掃描和專注引導(dǎo)策略,通過(guò)信息增益和轉(zhuǎn)向代價(jià)優(yōu)化探索目標(biāo),提升了探索效率,減少了探索時(shí)間。此外,引入先驗(yàn)知識(shí)可能是改善策略學(xué)習(xí)過(guò)程中出現(xiàn)的不利情況的有效手段[15,16]。研究表明,通過(guò)引入先驗(yàn)知識(shí),機(jī)器人可以更快地學(xué)習(xí)特定技能。例如,Le等人[17]提出了一種通過(guò)多模態(tài)人類示教快速學(xué)習(xí)操控技能的創(chuàng)新方法。該方法融合了任務(wù)參數(shù)化優(yōu)化和基于吸引子的阻抗控制,有效地整合了位置和力的特征,并針對(duì)不同技能階段優(yōu)化了剛度。由此,機(jī)器人能夠根據(jù)不同場(chǎng)景中演示的位置和力輪廓,以高可靠性再現(xiàn)所需的技能。Qin等人[18]提出了一種先進(jìn)的微裝配技能學(xué)習(xí)方法。該方法采用GMM對(duì)示教的行動(dòng)數(shù)據(jù)進(jìn)行編碼,采用GMR對(duì)狀態(tài)的分布進(jìn)行預(yù)測(cè),不僅使運(yùn)動(dòng)具有非線性,也保證了運(yùn)動(dòng)的全局穩(wěn)定性和泛化能力。該方法僅需少量的專家演示就能使機(jī)器人掌握所需的技能,具有高效的學(xué)習(xí)效率。此外,Makondo等人[19]使用局部普洛克魯斯特分析(local procrustes analysis)模型,利用歷史經(jīng)驗(yàn)數(shù)據(jù)向機(jī)器人傳授知識(shí),有效加速了機(jī)器人學(xué)習(xí)控制技能的過(guò)程。這些研究顯示,先驗(yàn)知識(shí)可以顯著加快機(jī)器人的初步學(xué)習(xí)進(jìn)程,但受限于數(shù)據(jù)質(zhì)量和環(huán)境復(fù)雜性,單靠先驗(yàn)知識(shí)往往不足以應(yīng)對(duì)高適應(yīng)性任務(wù),而結(jié)合強(qiáng)化學(xué)習(xí)的迭代優(yōu)化策略,可以進(jìn)一步提升機(jī)器人在這些復(fù)雜環(huán)境中的表現(xiàn)和適應(yīng)性。在國(guó)內(nèi)外的研究中,Chen等人[20]提出了一種基于深度Q學(xué)習(xí)的機(jī)器人抓取技能學(xué)習(xí)算法和基于PPO的機(jī)器人裝配技能學(xué)習(xí)算法,其中引入先驗(yàn)知識(shí)信息來(lái)設(shè)計(jì)約束獎(jiǎng)勵(lì)函數(shù),減少策略學(xué)習(xí)算法所需的訓(xùn)練時(shí)間和交互數(shù)據(jù)。Vidakovi等人[21]提出了一種結(jié)合先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)的機(jī)器人軌跡學(xué)習(xí)算法,利用先驗(yàn)知識(shí)為強(qiáng)化學(xué)習(xí)策略搜索擬合初始策略,減少了策略學(xué)習(xí)算法所需的訓(xùn)練時(shí)間,更快地得到運(yùn)動(dòng)策略。Guzman等人[22]通過(guò)Vicon運(yùn)動(dòng)捕捉系統(tǒng)記錄專家的運(yùn)動(dòng)軌跡。這些操作軌跡擬合了初始參考策略。隨后他們使用PPO算法,并利用獎(jiǎng)勵(lì)函數(shù)的反饋(如避障任務(wù)中的距離獎(jiǎng)勵(lì))對(duì)策略進(jìn)行調(diào)整和優(yōu)化,從而獲得性能更優(yōu)的控制策略。

    本文提出了一種結(jié)合先驗(yàn)知識(shí)的引導(dǎo)策略搜索(GPS)方法,通過(guò)分析和學(xué)習(xí)人類專家演示或者任務(wù)的歷史軌跡經(jīng)驗(yàn)的先驗(yàn)知識(shí),擬合初始動(dòng)態(tài)模型,并提取出較好的初始策略,用以指導(dǎo)RL過(guò)程中的策略探索。然后,通過(guò)引導(dǎo)策略搜索算法對(duì)該模型進(jìn)行局部在線調(diào)整,得到優(yōu)化后的策略,可以快速學(xué)習(xí)適用于接觸豐富的機(jī)器人操作技能。其他研究通常側(cè)重于策略初始化或獎(jiǎng)勵(lì)函數(shù)的塑造,相比之下,本文方法不僅利用先驗(yàn)知識(shí)來(lái)初始化策略,還將其用于動(dòng)態(tài)模型的初步擬合,為強(qiáng)化學(xué)習(xí)提供了一個(gè)更豐富的起點(diǎn),降低對(duì)數(shù)據(jù)的依賴性。該方法利用少量高質(zhì)量數(shù)據(jù)的初始化優(yōu)勢(shì),加速學(xué)習(xí)過(guò)程,并建立動(dòng)態(tài)模型,引導(dǎo)機(jī)器人向更高回報(bào)的區(qū)域探索采樣,并限制了策略搜索空間,提高了探索效率,進(jìn)而獲得更高質(zhì)量的樣本數(shù)據(jù)。

    本文的主要貢獻(xiàn)為:a)通過(guò)學(xué)習(xí)先驗(yàn)知識(shí)中的軌跡信息,建立初始動(dòng)態(tài)模型,得到機(jī)器人運(yùn)動(dòng)的初始策略,加快學(xué)習(xí)進(jìn)程,減少了在策略訓(xùn)練初期所需的探索時(shí)間和試錯(cuò)次數(shù);

    b)利用強(qiáng)化學(xué)習(xí)引導(dǎo)策略搜索算法對(duì)從先驗(yàn)知識(shí)中獲得的策略進(jìn)行迭代優(yōu)化,提高策略對(duì)裝配任務(wù)的適應(yīng)性;c)融合先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)引導(dǎo)策略搜索算法,構(gòu)建了一個(gè)能夠快速學(xué)習(xí)和完成復(fù)雜裝配任務(wù)的框架。

    1 問(wèn)題構(gòu)建

    機(jī)器人的軸孔裝配問(wèn)題,本質(zhì)上是一個(gè)特殊的機(jī)器人路徑規(guī)劃問(wèn)題,機(jī)器人在執(zhí)行此類任務(wù)時(shí),其運(yùn)動(dòng)不僅受到復(fù)雜環(huán)境和物理模型的嚴(yán)格約束,還要執(zhí)行高精度操作。傳統(tǒng)的軌跡規(guī)劃方法在處理這類問(wèn)題時(shí)往往受限,而強(qiáng)化學(xué)習(xí)提供了一種尋找最優(yōu)軌跡的替代途徑。

    1.1 MDP模型

    本文將機(jī)器人軸孔裝配任務(wù)建模為馬爾可夫決策過(guò)程(Markov decision process,MDP),如圖1所示。具體而言,在MDP模型中,將完成特定裝配任務(wù)所需的機(jī)器人運(yùn)動(dòng)軌跡表述為一個(gè)由T個(gè)時(shí)間步的信息組成的軌跡序列,可以寫(xiě)為τ={x1,u1,x2,u2,…,xt,ut}。其中每一個(gè)時(shí)間步的信息代表機(jī)器人在特定時(shí)刻的狀態(tài)xt和采取的動(dòng)作ut。在每個(gè)時(shí)間步t,智能體可以觀察到一個(gè)狀態(tài)xt,然后根據(jù)策略p(ut|xt)選擇一個(gè)動(dòng)作ut,從而導(dǎo)致?tīng)顟B(tài)跟隨概率模型p(xt+1|xt,ut)變化。目標(biāo)由獎(jiǎng)勵(lì)l(xt,ut)指定,策略則是最大化從時(shí)間步1到T的獎(jiǎng)勵(lì)總和的策略。MDP模型詳細(xì)定義了狀態(tài)量、動(dòng)作量、狀態(tài)轉(zhuǎn)移概率模型以及策略,以便在裝配過(guò)程中實(shí)現(xiàn)最優(yōu)化控制。

    建立該任務(wù)的MDP過(guò)程,如下:

    a)狀態(tài)量xt。狀態(tài)量xt由關(guān)節(jié)角度、關(guān)節(jié)角速度、末端執(zhí)行器的姿態(tài)(編碼為3個(gè)笛卡爾坐標(biāo)點(diǎn))以及這些點(diǎn)的速度組成,維度為30。

    b)動(dòng)作量ut。動(dòng)作量ut為機(jī)器人關(guān)節(jié)力矩,維度為6,與傳統(tǒng)的位置控制相比,力矩控制為機(jī)器人提供更高的柔順性,這種控制方式讓機(jī)器人能在裝配過(guò)程中靈活適應(yīng)接觸力變化和敏感環(huán)境。

    c)狀態(tài)轉(zhuǎn)移概率模型p(xt+1|xt,ut)。狀態(tài)轉(zhuǎn)移概率模型是通過(guò)離散時(shí)間動(dòng)態(tài)系統(tǒng)的狀態(tài)更新方程xt+1=Ft[xt;ut]+ft來(lái)表示,該方程描述了機(jī)器人在當(dāng)前狀態(tài)xt和動(dòng)作ut情況下,機(jī)器人在下一時(shí)間步下?tīng)顟B(tài)的概率分布xt+1。

    d)策略p(ut|xt)。策略通過(guò)離散時(shí)間控制律ut=Ktxt+kt來(lái)表示,根據(jù)當(dāng)前狀態(tài)xt生成控制動(dòng)作ut。策略可以是確定性的或隨機(jī)性的,后者通過(guò)在策略中加入高斯噪聲實(shí)現(xiàn)。

    1.2 代價(jià)函數(shù)設(shè)計(jì)

    策略學(xué)習(xí)目標(biāo)是最小化軌跡τ={x1,u1,x2,u2,…,xt,ut}所有時(shí)間步的代價(jià)總和minEp[∑Tt=1l(xt,ut)],其中包括優(yōu)化每個(gè)時(shí)間步當(dāng)前位置與目標(biāo)位置的偏差和控制輸入,代價(jià)函數(shù)設(shè)計(jì)如下:

    l(xt,ut)=l1d2t+l2log(d2t+α)+wu‖ut‖2

    (1)

    其中:l1、l2以及wu是代價(jià)函數(shù)中各項(xiàng)系數(shù),將小的常數(shù)α加入到對(duì)數(shù)項(xiàng)中,確保代價(jià)函數(shù)在零點(diǎn)附近也是可微的。表1列出了代價(jià)函數(shù)的系數(shù)設(shè)定,設(shè)定各項(xiàng)系數(shù)的值。

    代價(jià)函數(shù)由兩部分組成:

    a)位置偏差代價(jià)Ld。位置偏差代價(jià)Ld如圖2所示,是指當(dāng)前時(shí)間步末端執(zhí)行器點(diǎn)位置與目標(biāo)位置的偏差代價(jià):

    l(xt,ut)=l1d2t+l2log(d2t+α)

    (2)

    其中:dt是末端執(zhí)行器上三點(diǎn)與目標(biāo)位置之間的距離,二次項(xiàng)鼓勵(lì)末端執(zhí)行器在遠(yuǎn)處向目標(biāo)位置移動(dòng),對(duì)數(shù)項(xiàng)鼓勵(lì)將其精確地放置在目標(biāo)位置上。Ld隨著dt的變化而變化的趨勢(shì)如圖2所示。當(dāng)距離偏差dt接近于零時(shí),損失值迅速降低,當(dāng)dt值遠(yuǎn)離零點(diǎn)時(shí),曲線變得較為平緩,這有助于優(yōu)化算法在距離偏差較小時(shí)實(shí)現(xiàn)快速收斂,同時(shí)在距離偏差較大時(shí)避免過(guò)大的步長(zhǎng),進(jìn)而防止出現(xiàn)超調(diào)情況。

    b)控制輸入代價(jià)Ud。該部分代價(jià)是通過(guò)最小化動(dòng)作量(即力矩)的二范數(shù)平方來(lái)定義,該設(shè)計(jì)確保了控制策略的平滑性,避免了大幅度的控制動(dòng)作,從而減少機(jī)器人運(yùn)動(dòng)的劇烈變化。

    通過(guò)建立MDP模型,可以系統(tǒng)地分析并優(yōu)化機(jī)器人在軸孔裝配任務(wù)中的行為,使其能夠在復(fù)雜的工業(yè)環(huán)境中自主學(xué)習(xí)和調(diào)整運(yùn)動(dòng)軌跡,提高裝配任務(wù)的成功率和效率。

    2 方法實(shí)現(xiàn)

    本章介紹了融合先驗(yàn)知識(shí)和引導(dǎo)策略搜索(GPS)去解決機(jī)器人軸孔裝配問(wèn)題的具體方法。

    2.1 先驗(yàn)知識(shí)

    2.1.1 先驗(yàn)知識(shí)來(lái)源

    在強(qiáng)化學(xué)習(xí)(RL)和機(jī)器人控制領(lǐng)域,先驗(yàn)知識(shí)是指提前獲得的信息或經(jīng)驗(yàn),它對(duì)于提高策略學(xué)習(xí)效率至關(guān)重要。傳統(tǒng)的強(qiáng)化學(xué)習(xí),通常是從零開(kāi)始訓(xùn)練智能體,需要與環(huán)境進(jìn)行大量的交互試錯(cuò),以獲取足夠的數(shù)據(jù),逐步學(xué)習(xí)到有效的策略。然而,在很多場(chǎng)合中,大量試錯(cuò)是不被允許的。為了減少試錯(cuò)并提高學(xué)習(xí)效率,先驗(yàn)知識(shí)在此發(fā)揮著重要作用,使得基于少量樣本的學(xué)習(xí)成為可能。

    本研究主要從人類專家演示和歷史任務(wù)數(shù)據(jù)兩個(gè)渠道獲取先驗(yàn)知識(shí)。a)人類專家演示。通過(guò)詳細(xì)記錄機(jī)器人在自由空間下(無(wú)裝配臺(tái)存在的空曠環(huán)境)從初始點(diǎn)運(yùn)動(dòng)到裝配位置的到達(dá)任務(wù)的軌跡序列,進(jìn)而收集到高質(zhì)量的示范數(shù)據(jù)。這些軌跡數(shù)據(jù)涵蓋了關(guān)節(jié)角度、關(guān)節(jié)角速度、末端執(zhí)行器位姿和速度等關(guān)鍵信息,為控制策略的初始化提供了一個(gè)較為優(yōu)秀的起點(diǎn)。b)歷史任務(wù)數(shù)據(jù)。這些歷史任務(wù)數(shù)據(jù)來(lái)自同一個(gè)機(jī)器人的不同起點(diǎn)和終點(diǎn)的到達(dá)或裝配任務(wù)的相似軌跡序列,其中包括任務(wù)成功和失敗案例的軌跡信息。在這些歷史軌跡序列中,當(dāng)進(jìn)行新的軸孔裝配任務(wù)時(shí),本文將從距離方面考慮,將歷史數(shù)據(jù)中和新任務(wù)起點(diǎn)及終點(diǎn)較近、接近和較遠(yuǎn)的軌跡序列,依次劃分為優(yōu)、次優(yōu)和差的不同質(zhì)量的軌跡序列群。這些歷史數(shù)據(jù)不僅為策略學(xué)習(xí)提供了豐富多樣的操作樣本,高質(zhì)量的軌跡序列還有助于限制策略學(xué)習(xí)空間,指導(dǎo)新任務(wù)中的策略學(xué)習(xí),從而降低試錯(cuò)頻率。

    本文從上述先驗(yàn)知識(shí)中獲取N條高質(zhì)量的演示軌跡,其中每條軌跡的長(zhǎng)度為T,都是由狀態(tài)xt和控制輸入ut組成的序列。狀態(tài)由四元組xt=[θ;;x;v]組成,θ為關(guān)節(jié)角度,為關(guān)節(jié)角速度,x為末端執(zhí)行器特征點(diǎn)位置,v為末端執(zhí)行器特征點(diǎn)速度,控制輸入ut為關(guān)節(jié)力矩。將每一條軌跡表示如下:

    τ={x1,u1,x2,u2,…,xt,ut}

    (3)

    將這些先驗(yàn)知識(shí)中的軌跡數(shù)據(jù)放入集合{τi}中,進(jìn)行初始策略擬合,并可以在強(qiáng)化學(xué)習(xí)的早期階段為機(jī)器人提供高質(zhì)量的軌跡樣本,加速算法的收斂。

    2.1.2 經(jīng)驗(yàn)池更新

    為進(jìn)一步提高學(xué)習(xí)過(guò)程的靈活性和適應(yīng)性,可以設(shè)計(jì)一個(gè)動(dòng)態(tài)調(diào)整的經(jīng)驗(yàn)池。該經(jīng)驗(yàn)池不僅存儲(chǔ)了從先驗(yàn)知識(shí)中獲得的軌跡數(shù)據(jù),也會(huì)逐漸融合來(lái)自實(shí)時(shí)交互獲取的新數(shù)據(jù)。該過(guò)程的目的是逐步減少對(duì)舊先驗(yàn)知識(shí)的依賴,增強(qiáng)模型對(duì)新環(huán)境和新情況的適應(yīng)能力。

    經(jīng)驗(yàn)池D在初始化時(shí),主要包括從人類專家演示和歷史任務(wù)數(shù)據(jù)中獲取的先驗(yàn)知識(shí)集合{τi},這些數(shù)據(jù)構(gòu)成了機(jī)器人的初始學(xué)習(xí)基礎(chǔ),記作Dprior。隨著新數(shù)據(jù)的不斷獲取,本文使用一個(gè)動(dòng)態(tài)的更新規(guī)則來(lái)調(diào)整經(jīng)驗(yàn)池中數(shù)據(jù)的比例和組成。定義新數(shù)據(jù)注入比例α,該參數(shù)隨迭代次數(shù)k動(dòng)態(tài)調(diào)整,初始設(shè)置為較小數(shù)值,以保留更多的先驗(yàn)知識(shí)。更新公式可以表達(dá)為

    D=(1-αk)Dprior+αkDnew

    (4)

    其中:Dnew是新收集的數(shù)據(jù);αk是第k次迭代時(shí)新數(shù)據(jù)的注入比例,這個(gè)比例隨迭代次數(shù)逐漸增加,從而減少先驗(yàn)數(shù)據(jù)在經(jīng)驗(yàn)池中的比重。注入比例αk的具體調(diào)整策略依賴于模型在實(shí)際應(yīng)用中的表現(xiàn),可以用式(5)動(dòng)態(tài)調(diào)整。

    αk=min(kM,1)

    (5)

    其中:M是一個(gè)預(yù)設(shè)的閾值,表示當(dāng)?shù)螖?shù)達(dá)到M時(shí),經(jīng)驗(yàn)池完全轉(zhuǎn)變?yōu)樾聰?shù)據(jù)驅(qū)動(dòng)。這種設(shè)置幫助模型逐步過(guò)渡到完全依賴當(dāng)前和最近的數(shù)據(jù),減少對(duì)舊數(shù)據(jù)的依賴。

    在每次迭代后,部分舊的先驗(yàn)知識(shí)被新的數(shù)據(jù)替換,使得模型能更好地適應(yīng)當(dāng)前環(huán)境的變化。通過(guò)這種動(dòng)態(tài)調(diào)整經(jīng)驗(yàn)池的策略,可以使得機(jī)器人控制系統(tǒng)在初期受益于豐富的先驗(yàn)知識(shí),而在后期能更好地適應(yīng)新的操作環(huán)境和任務(wù)要求。

    2.2 動(dòng)力學(xué)模型

    在使用先驗(yàn)知識(shí)的軌跡數(shù)據(jù){τi}擬合策略過(guò)程中,首先擬合動(dòng)力學(xué)模型,動(dòng)力學(xué)模型可以在擬合策略時(shí)提供先驗(yàn)信息,來(lái)提高數(shù)據(jù)的利用效率。

    2.2.1 時(shí)變線性模型(TVLM)

    在環(huán)境特別復(fù)雜的情況下,動(dòng)力學(xué)模型難以通過(guò)機(jī)理建模方法給出,但可以通過(guò)基于數(shù)據(jù)驅(qū)動(dòng)的擬合方法得到,本文將動(dòng)力學(xué)模型建模為時(shí)變線性模型(time-varying linear model,TVLM),時(shí)變線性模型的優(yōu)勢(shì)在于能夠捕捉環(huán)境的動(dòng)態(tài)特性,并以概率形式表達(dá)模型的不確定性,其中高斯分布是描述這種不確定性的理想選擇:p(xt+1|xt,ut)=Euclid Math OneNAp(f(xt,ut),F(xiàn)t),其中,xt和ut分別表示在時(shí)間步t的狀態(tài)和動(dòng)作,f(xt,ut)是線性函數(shù),F(xiàn)t是模型的協(xié)方差矩陣,表示模型的不確定性。

    線性回歸(linear regression,LR)方法是一種廣泛應(yīng)用的擬合線性模型的方法。本文將從先驗(yàn)知識(shí)中獲得的軌跡數(shù)據(jù){τi}重構(gòu)為數(shù)據(jù)集{xi,ui,x′i},其中xi和ui分別代表系統(tǒng)的狀態(tài)和控制輸入,x′i是后續(xù)狀態(tài)。然后將線性回歸問(wèn)題重構(gòu)為擬合數(shù)據(jù)集的高斯模型問(wèn)題,計(jì)算該數(shù)據(jù)集的經(jīng)驗(yàn)協(xié)方差Σ和經(jīng)驗(yàn)均值μ。在估計(jì)了Σ和μ后,通過(guò)將聯(lián)合分布條件化在當(dāng)前狀態(tài)xt和控制ut上,可以獲得關(guān)于下一狀態(tài)xt+1的概率預(yù)測(cè),這里的高斯模型不僅僅預(yù)測(cè)一個(gè)值,而是預(yù)測(cè)一個(gè)分布,即為動(dòng)力學(xué)模型:

    (9)

    在強(qiáng)化學(xué)習(xí)的框架中,動(dòng)力學(xué)模型一般是未知的,傳統(tǒng)強(qiáng)化學(xué)習(xí)通常從零開(kāi)始訓(xùn)練智能體,需要與環(huán)境進(jìn)行大量的交互試錯(cuò)來(lái)獲取足夠的數(shù)據(jù),本文利用先驗(yàn)知識(shí)中的歷史任務(wù)數(shù)據(jù)和專家演示數(shù)據(jù),來(lái)初始化動(dòng)力學(xué)模型。本文通過(guò)對(duì)這些先驗(yàn)數(shù)據(jù)進(jìn)行回歸分析和擬合,可以得到初始的時(shí)變線性模型參數(shù)。這種初始化方式減少了策略對(duì)隨機(jī)探索的需求,提高了初始模型的準(zhǔn)確性。隨著策略迭代的進(jìn)行,本文使用新采集的交互數(shù)據(jù)更新動(dòng)力學(xué)模型,確保其能夠更準(zhǔn)確地反映當(dāng)前環(huán)境動(dòng)態(tài)。

    2.2.2 高斯混合模型

    在擬合高維系統(tǒng)的線性動(dòng)力學(xué)模型時(shí),樣本復(fù)雜度隨系統(tǒng)維度的增加而顯著提高。對(duì)于高維系統(tǒng),基于數(shù)據(jù)對(duì)每一個(gè)時(shí)刻進(jìn)行線性擬合時(shí)需要足夠的樣本數(shù)據(jù),否則會(huì)出現(xiàn)過(guò)擬合的情況,不能真實(shí)反映模型,而收集足夠的樣本擬合精確的動(dòng)力學(xué)模型又需要較長(zhǎng)的時(shí)間。為了避免過(guò)擬合并減少訓(xùn)練時(shí)間,采用了高斯混合模型(Gaussian mixture model,GMM)來(lái)近似復(fù)雜的非線性動(dòng)力學(xué)。

    高斯混合模型非常適合于建模分段線性動(dòng)力學(xué),這對(duì)于在環(huán)境中接觸物體的關(guān)節(jié)系統(tǒng)(如機(jī)器人)是一個(gè)很好的近似。具體來(lái)說(shuō),GMM通過(guò)將動(dòng)力學(xué)模型分割成多個(gè)高斯分布的簇來(lái)近似復(fù)雜的非線性動(dòng)力學(xué)。

    在每次迭代中,使用數(shù)據(jù)集(xt,ut,xt+1)T構(gòu)建一個(gè)高斯混合模型。在每個(gè)簇ci中,條件分布ci(xt+1|xt,ut)是一個(gè)線性高斯動(dòng)力學(xué)模型,而邊緣分布ci(xt,ut)則表示該模型有效的區(qū)域。

    為了將GMM用作線性動(dòng)力學(xué)的先驗(yàn),采取以下步驟:

    a)計(jì)算平均簇權(quán)重。在每個(gè)時(shí)間步,計(jì)算樣本的平均簇權(quán)重,這些權(quán)重反映了樣本在不同簇中的分布情況。

    b)加權(quán)平均和協(xié)方差。使用平均簇權(quán)重計(jì)算樣本的加權(quán)平均值和協(xié)方差Σ^,為構(gòu)建先驗(yàn)分布提供基礎(chǔ)。

    c)擬合正態(tài)-逆Wishart先驗(yàn)。使用上述平均值和協(xié)方差Σ^,在時(shí)間步t處擬合(xt,ut,xt+1)T的正態(tài)-逆Wishart先驗(yàn),并通過(guò)對(duì)(xt,ut)T進(jìn)行條件處理得到動(dòng)力學(xué)模型。

    這種方法允許使用比狀態(tài)維度更少的樣本,同時(shí)保持動(dòng)力學(xué)模型的準(zhǔn)確性。通過(guò)利用歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的結(jié)合,能夠更有效地?cái)M合動(dòng)力學(xué)模型。

    2.3 線性高斯策略和LQG控制

    在本研究中,使用了時(shí)變線性高斯控制器作為智能體的決策策略,這種策略雖然整體上是非線性的,但在每個(gè)時(shí)間步都是局部線性的,從而簡(jiǎn)化了控制律的計(jì)算。該策略是以軌跡為中心的,可以表示任意高斯軌跡分布,其中包含大量參數(shù)來(lái)適應(yīng)不同的狀態(tài)和動(dòng)作。時(shí)變線性高斯策略的形式為p(ut|xt)=Euclid Math OneNAp(Ktxt+kt,Ct),其中xt和ut分別是時(shí)間步t的狀態(tài)和動(dòng)作。

    本文利用先驗(yàn)知識(shí)的軌跡信息來(lái)擬合時(shí)變線性高斯動(dòng)力學(xué)模型,然后求解線性二次高斯(linear quadratic Gaussian,LQG)問(wèn)題的變體,以找到在此模型下最優(yōu)的新控制器p(ut|xt)。本文計(jì)算了成本函數(shù)在每個(gè)樣本周圍的二階展開(kāi),并將展開(kāi)的結(jié)果平均起來(lái),以獲得局部近似成本:

    l(xt,ut)≈12[xt;ut]Tlxu,xut[xt;ut]+[xt;ut]Tlxut+const(10)

    其中:下標(biāo)表示導(dǎo)數(shù);lxut是成本函數(shù)相對(duì)于[xt;ut]的梯度,而lxu,xut是成本函數(shù)相對(duì)于[xt;ut]的海森矩陣;const是常數(shù)項(xiàng)。

    當(dāng)代價(jià)函數(shù)為二次函數(shù)且動(dòng)力學(xué)為線性-高斯時(shí),最優(yōu)時(shí)變線性高斯控制器可以通過(guò)LQG方法得到[23]。在LQG設(shè)置中,可以通過(guò)一個(gè)自后向前的動(dòng)態(tài)規(guī)劃算法來(lái)計(jì)算每個(gè)時(shí)間步的Q函數(shù)和值函數(shù):

    (16)

    其中:下標(biāo)表示導(dǎo)數(shù);Qxut表示在時(shí)間t處關(guān)于[xt;ut]的代價(jià)導(dǎo)數(shù);Qxu,xut是Hessian矩陣;依此類推??梢缘玫阶顑?yōu)控制器g(xt)=Ktxt+kt,其中Kt=-Q-1u,utQu,xt和kt=-Q-1u,utQut。如果將p(τ)視為由確定性控制律g(xt)和隨機(jī)動(dòng)力學(xué)p(xt+1|xt,ut)形成的軌跡分布,那么線性二次調(diào)節(jié)器優(yōu)化標(biāo)準(zhǔn)目標(biāo)為

    在利用先驗(yàn)知識(shí)得到策略后,本文通過(guò)該策略執(zhí)行重新采樣,擬合并調(diào)整動(dòng)態(tài)模型,隨后通過(guò)線性二次高斯(LQG)方法對(duì)策略進(jìn)行求解優(yōu)化,使新策略適應(yīng)當(dāng)前環(huán)境。

    在策略迭代更新過(guò)程中,為了在不偏離先前軌跡分布p(ut|xt)太多的情況下更新線性高斯控制器p(ut|xt),要求其軌跡分布p(τ)=∏tp(xt+1|xt,ut)p(ut|xt)與先前的分布(τ)之間的偏差在一個(gè)限定的范圍內(nèi),設(shè)立了一個(gè)約束目標(biāo),設(shè)定為

    (22)

    時(shí),該目標(biāo)可以通過(guò)拉格朗日量除以η得到。因此,可以通過(guò)在修改后的代價(jià)(xt,ut)=1ηl(xt,ut)-log (ut|xt)下求解LQG問(wèn)題來(lái)對(duì)其進(jìn)行求解優(yōu)化,對(duì)偶變量η通過(guò)對(duì)偶梯度下降(dual gradient descent,DGD)獲得,通過(guò)反復(fù)求解LQG問(wèn)題并根據(jù)約束違反量更新η。通過(guò)對(duì)η進(jìn)行區(qū)間線搜索可以將需要的對(duì)偶梯度下降迭代次數(shù)減少到僅3到5次。

    2.4 引導(dǎo)策略搜索(GPS)

    2.4.1 結(jié)合先驗(yàn)知識(shí)的引導(dǎo)策略搜索算法

    本研究采用了引導(dǎo)策略搜索算法(guided policy search),目的在于解決連續(xù)動(dòng)作空間的機(jī)器人控制問(wèn)題[25,26]。該算法通過(guò)構(gòu)建馬爾可夫決策過(guò)程(MDP)來(lái)描述任務(wù),然后采用策略搜索方法來(lái)尋找最優(yōu)策略。該算法結(jié)合了基于模型預(yù)測(cè)和優(yōu)化過(guò)程,通過(guò)優(yōu)化技術(shù)來(lái)改進(jìn)策略,提高采樣效率和完成裝配。結(jié)合先驗(yàn)知識(shí)的引導(dǎo)策略搜索算法如下:

    算法 結(jié)合先驗(yàn)知識(shí)的引導(dǎo)策略搜索算法

    輸入:人類專家演示和歷史任務(wù)數(shù)據(jù){τi}。

    輸出:最終策略p(ut|xt)。

    a) 初始化經(jīng)驗(yàn)池D,其中包含人類專家演示和歷史任務(wù)數(shù)據(jù)τ={x1,u1,x2,u2,…,xt,ut}

    b) 使用經(jīng)驗(yàn)池D,初始化動(dòng)力學(xué)模型p(xt+1|xt,ut)

    c) 擬合初始控制策略p(ut|xt)

    d) 迭代過(guò)程:進(jìn)行k=1到K次的迭代

    e) "根據(jù)當(dāng)前策略p(ut|xt),收集軌跡樣本{τi}

    f) "更新經(jīng)驗(yàn)池D=(1-αk)Dprior+αkDnew,其中αk=min(k/M,1)為新數(shù)據(jù)注入比例

    g) "使用新經(jīng)驗(yàn)池D更新動(dòng)力學(xué)模型p(xt+1|xt,ut)

    h) "使用LQR優(yōu)化策略,使策略滿足p(ut|xt)←argminp(ut|xt)Ep[∑Tt=1l(xt,ut)] s.t. DKL(p(τ)‖(τ))≤ε

    i) 結(jié)束迭代,輸出最終策略p(ut|xt)

    2.4.2 策略應(yīng)用和操作

    機(jī)器人進(jìn)行復(fù)雜裝配操作的控制流程,如圖3所示。在機(jī)器人進(jìn)行復(fù)雜裝配任務(wù)時(shí),機(jī)器人通過(guò)視覺(jué)獲取或已知目標(biāo)裝配位置,利用多個(gè)傳感器實(shí)時(shí)收集末端執(zhí)行器特征點(diǎn)位置和速度、關(guān)節(jié)角度和關(guān)節(jié)速度等信息。這些傳感器信息快速傳輸至機(jī)器人控制器,并輸入到GPS策略生成器中。機(jī)器人通過(guò)先驗(yàn)知識(shí)擬合初始策略,基于機(jī)器人傳感器信息獲取到的當(dāng)前狀態(tài),策略輸出下一步動(dòng)作和控制器參數(shù),以適應(yīng)機(jī)器人的動(dòng)態(tài)行為和外部環(huán)境變化。控制器接收策略的輸出后,生成關(guān)節(jié)力矩指令并傳遞給機(jī)器人。機(jī)器人根據(jù)指令執(zhí)行動(dòng)作,并通過(guò)傳感器收集反饋信息,形成閉環(huán)控制。這些反饋信息再次被傳輸至控制器,用于GPS策略的預(yù)測(cè)和調(diào)整。該過(guò)程不斷重復(fù)進(jìn)行,直至裝配任務(wù)完成。這種策略和控制流程的緊密結(jié)合,增強(qiáng)了機(jī)器人在面對(duì)復(fù)雜多變環(huán)境時(shí)的適應(yīng)性和穩(wěn)定性。

    3 實(shí)驗(yàn)與結(jié)果

    3.1 實(shí)驗(yàn)設(shè)置

    本文方法在工業(yè)機(jī)器人敏捷性挑戰(zhàn)賽(Agile Robotics for Industrial Automation Competition,ARIAC)中對(duì)regulator工件的軸孔裝配任務(wù)進(jìn)行了評(píng)估。仿真實(shí)驗(yàn)是在Ubuntu 18.04+Gazebo 9.0.0的環(huán)境下進(jìn)行的,使用的機(jī)器人是Kinova Gen3六自由度機(jī)器人,機(jī)器人控制頻率設(shè)置為20 Hz。在實(shí)驗(yàn)中,本文采用了regulator工件來(lái)進(jìn)行裝配任務(wù)研究,其中regulator工件軸的直徑為26 mm,裝配孔的直徑為34 mm。

    實(shí)驗(yàn)場(chǎng)景如圖4所示,能夠觀察到機(jī)械臂在執(zhí)行存在豐富接觸問(wèn)題的軸孔裝配任務(wù)中的裝配初始狀態(tài)和裝配目標(biāo)狀態(tài)。在裝配初始狀態(tài)下,機(jī)器人通過(guò)吸盤吸取regulator工件,工件在裝配位置上方。在裝配目標(biāo)狀態(tài)下,機(jī)器人將regulator工件裝配到相應(yīng)孔中。場(chǎng)景A和B是裝配任務(wù)的兩個(gè)實(shí)驗(yàn)條件,它們具有相同的裝配位置和不同的初始位置。

    在每個(gè)實(shí)驗(yàn)條件下,機(jī)器人策略訓(xùn)練的迭代次數(shù)N為20次,每次迭代采集5條軌跡樣本,軌跡樣本長(zhǎng)度T 為100個(gè)時(shí)間步長(zhǎng)。

    3.2 數(shù)據(jù)和結(jié)果

    在實(shí)驗(yàn)中,使用原GPS方法的初始策略去執(zhí)行軸孔裝配任務(wù),機(jī)器人末端執(zhí)行器最終位置呈現(xiàn)隨機(jī)位置,樣本最終姿態(tài)也是隨機(jī)狀態(tài);使用通過(guò)先驗(yàn)知識(shí)擬合得到的初始策略,機(jī)器人末端執(zhí)行器最終位置接近裝配位置,樣本最終姿態(tài)也接近目標(biāo)姿態(tài)。先驗(yàn)知識(shí)擬合的初始策略生成的軌跡質(zhì)量較高,能夠引導(dǎo)策略較快完成優(yōu)化。

    a)將結(jié)合先驗(yàn)知識(shí)的GPS方法與其他方法的學(xué)習(xí)性能進(jìn)行對(duì)比。通過(guò)圖5、6的數(shù)據(jù)分析,可以觀察到結(jié)合先驗(yàn)知識(shí)的GPS方法、GPS方法和PPO方法在機(jī)器人裝配任務(wù)中的性能差異,這種對(duì)比強(qiáng)調(diào)了不同策略在迭代學(xué)習(xí)過(guò)程中達(dá)到收斂的速度和效率。

    在總代價(jià)方面,在場(chǎng)景A和B兩個(gè)初始條件下,使用結(jié)合先驗(yàn)知識(shí)的GPS方法與GPS方法進(jìn)行實(shí)驗(yàn),每種方法的實(shí)驗(yàn)重復(fù)3次,總代價(jià)的均值和誤差范圍如圖5所示。

    從圖5可以看出,在迭代的總代價(jià)方面,在場(chǎng)景A中,兩種方法分別在第7和12次達(dá)到收斂,結(jié)合先驗(yàn)知識(shí)的GPS方法比GPS方法約快41%達(dá)到收斂;在場(chǎng)景B中,兩種方法分別在第7和13次完成收斂,結(jié)合先驗(yàn)知識(shí)的GPS方法比GPS方法約快46%達(dá)到收斂。結(jié)果表明,將先驗(yàn)知識(shí)擬合策略的初始優(yōu)勢(shì)與GPS算法的優(yōu)化能力結(jié)合,可以顯著加速策略學(xué)習(xí)過(guò)程,快速減小總代價(jià)。

    在末端執(zhí)行器最終位置與目標(biāo)位置的距離偏差方面,在場(chǎng)景A和B兩個(gè)初始條件下,使用結(jié)合先驗(yàn)知識(shí)的GPS方法、GPS方法和PPO方法進(jìn)行實(shí)驗(yàn),每種方法的實(shí)驗(yàn)重復(fù)3次,距離偏差的均值和誤差范圍如圖6所示。

    從圖6可以看出,在每次迭代的最后時(shí)間步末端執(zhí)行器所有特征點(diǎn)到目標(biāo)位置的距離偏差方面,對(duì)于場(chǎng)景A和B,三種方法在策略訓(xùn)練過(guò)程中都可以實(shí)現(xiàn)軸孔裝配(其中,設(shè)置迭代次數(shù)為橫坐標(biāo)變量,距離偏差為縱坐標(biāo)變量。設(shè)置三種算法均采樣500個(gè)時(shí)間步后更新策略,設(shè)定結(jié)合先驗(yàn)知識(shí)的GPS方法和GPS方法更新一次策略時(shí)為一次迭代,為了更好地觀察PPO方法實(shí)驗(yàn)情況,設(shè)定PPO方法更新四次策略時(shí),為一次迭代,該做法便于觀察三種方法的位置偏差變化趨勢(shì)。設(shè)置將工件插入孔中,距離lt;0.01時(shí)可以認(rèn)為裝配成功)。

    在每次迭代的最后時(shí)間步末端執(zhí)行器所有特征點(diǎn)到目標(biāo)位置的距離偏差方面,對(duì)于場(chǎng)景A,結(jié)合先驗(yàn)知識(shí)的GPS方法與GPS方法,分別在第8和14次迭代實(shí)現(xiàn)軸孔裝配,結(jié)合先驗(yàn)知識(shí)的GPS方法比GPS方法約快43%實(shí)現(xiàn)軸孔裝配,而PPO方法,約在第66次迭代后,可以實(shí)現(xiàn)軸孔裝配;對(duì)于場(chǎng)景B,結(jié)合先驗(yàn)知識(shí)的GPS方法與GPS方法,分別在第7和14次迭代實(shí)現(xiàn)軸孔裝配,結(jié)合先驗(yàn)知識(shí)的GPS方法比GPS方法約快50%實(shí)現(xiàn)軸孔裝配,而PPO方法,約在第54次迭代后,可以實(shí)現(xiàn)軸孔裝配。實(shí)驗(yàn)結(jié)果顯示結(jié)合先驗(yàn)知識(shí)的GPS方法與GPS方法以及PPO方法相比,該方法在訓(xùn)練機(jī)器人完成軸孔裝配任務(wù)策略的效率。

    b)將基于先驗(yàn)知識(shí)得到的策略與結(jié)合先驗(yàn)知識(shí)的GPS方法得到的策略,進(jìn)行完成regulator工件裝配任務(wù)時(shí)每一時(shí)間步末端執(zhí)行器所有特征點(diǎn)到目標(biāo)位置點(diǎn)的距離對(duì)比。在場(chǎng)景A和B兩個(gè)條件下,兩種策略的實(shí)驗(yàn)重復(fù)3次,任務(wù)執(zhí)行的軌跡均值和誤差范圍如圖7所示。

    通過(guò)圖7的比較分析,對(duì)于場(chǎng)景A和B,當(dāng)使用僅基于先驗(yàn)知識(shí)得到的策略時(shí),末端執(zhí)行器的所有特征點(diǎn)到目標(biāo)位置的距離相對(duì)較遠(yuǎn),遠(yuǎn)離零點(diǎn)。盡管先驗(yàn)知識(shí)擬合的策略能夠提供一定的操作指導(dǎo)和初始行為模仿,但它可能缺乏必要的精確控制和適應(yīng)復(fù)雜或動(dòng)態(tài)變化條件的能力,難以適應(yīng)新的工作環(huán)境,該策略難以完成裝配任務(wù)。結(jié)合先驗(yàn)知識(shí)的GPS方法訓(xùn)練的策略顯著改善了末端執(zhí)行器到目標(biāo)位置的精確性,末端執(zhí)行器到目標(biāo)位置的距離接近于零(在實(shí)驗(yàn)中,將工件插入孔中,距離lt;0.01時(shí)可以認(rèn)為裝配成功)。這種改進(jìn)指出GPS方法能有效優(yōu)化先驗(yàn)知識(shí)擬合的初始策略,通過(guò)更精細(xì)的調(diào)整和環(huán)境反饋學(xué)習(xí),實(shí)現(xiàn)對(duì)復(fù)雜動(dòng)態(tài)的適應(yīng),該策略可以實(shí)現(xiàn)復(fù)雜裝配操作。

    以上實(shí)驗(yàn)結(jié)果表明通過(guò)使用先驗(yàn)知識(shí),改善了策略在訓(xùn)練過(guò)程中出現(xiàn)局部最小值的問(wèn)題,提高了采樣效率,減少了迭代次數(shù)。結(jié)合先驗(yàn)知識(shí)的GPS方法為解決復(fù)雜裝配任務(wù)提供了一種高效且精確的解決方案。

    4 結(jié)束語(yǔ)

    本文提出了一種融合先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)的機(jī)器人裝配技能學(xué)習(xí)方法,為自動(dòng)化領(lǐng)域技術(shù)的進(jìn)步提供了新的視角。本文方法與傳統(tǒng)從零開(kāi)始的強(qiáng)化學(xué)習(xí)方法不同,它借鑒了人類學(xué)習(xí)技能的自然過(guò)程:首先通過(guò)觀察和模仿獲取初步技能,然后通過(guò)實(shí)踐和調(diào)整來(lái)完善這些技能。本文結(jié)合了這種思想,機(jī)器人通過(guò)先驗(yàn)知識(shí)實(shí)現(xiàn)策略快速初始化,然后將策略在軸孔裝配任務(wù)環(huán)境下約束訓(xùn)練,利用強(qiáng)化學(xué)習(xí)的迭代優(yōu)化提升策略性能,機(jī)器人無(wú)須知道動(dòng)力學(xué)信息,即可較快獲取能夠完成非結(jié)構(gòu)環(huán)境下裝配的策略。因此,將先驗(yàn)知識(shí)與強(qiáng)化學(xué)習(xí)相結(jié)合,提高策略學(xué)習(xí)效率是未來(lái)工作的方向之一。本文僅采用經(jīng)典的圓形軸孔裝配來(lái)驗(yàn)證所提出的方法,未來(lái)將把所提方法應(yīng)用于不規(guī)則形狀或可變形零件的裝配任務(wù)。同時(shí)本文希望能夠引入視覺(jué)模塊,獲取機(jī)器人運(yùn)動(dòng)的圖像樣本,提高樣本豐富度。

    參考文獻(xiàn):

    [1]高峰, 郭為忠. 中國(guó)機(jī)器人的發(fā)展戰(zhàn)略思考 [J]. 機(jī)械工程學(xué)報(bào), 2016, 52(7): 1-5. (Gao Feng, Guo Weizhong. Thinking of the development strategy of robots in China [J]. Journal of Mechanical Engineering, 2016, 52 (7): 1-5.)

    [2]計(jì)時(shí)鳴, 黃希歡. 工業(yè)機(jī)器人技術(shù)的發(fā)展與應(yīng)用綜述 [J]. 機(jī)電工程, 2015, 32(1): 1-13. (Ji Shiming, Huang Xihuan. Review of development and application of industrial robot technology [J]. Journal of Mechanical and Electrical Engineering, 2015, 32 (1): 1-13.)

    [3]Taesi C, Aggogeri F, Pellegrini N. COBOT applications—recent advances and challenges [J]. Robotics, 2023, 12(3): 79.

    [4]王耀南, 江一鳴, 姜嬌, 等. 機(jī)器人感知與控制關(guān)鍵技術(shù)及其智能制造應(yīng)用 [J]. 自動(dòng)化學(xué)報(bào), 2023, 49(3): 494-513. (Wang Yaonan, Jiang Yiming, Jiang Jiao, et al. Key technologies of robot perception and control and its intelligent manufacturing applications [J]. Acta Automatica Sinica, 2023, 49 (3): 494-513.)

    [5]Sadun A S, Jalani J, Sukor J A. An overview of active compliance control for a robotic hand [J]. ARPN Journal of Engineering and Applied Sciences, 2016, 11 (20): 11872-11876.

    [6]董豪, 楊靜, 李少波, 等. 基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人運(yùn)動(dòng)控制研究進(jìn)展 [J]. 控制與決策, 2022, 37(2): 278-292. (Dong Hao, Yang Jing, Li Shaobo, et al. Research progress of robot motion control based on deep reinforcement learning [J]. Control and Decision, 2022, 37 (2): 278-292.)

    [7]Arents J, Greitans M. Smart industrial robot control trends, challenges and opportunities within manufacturing [J]. Applied Sciences, 2022, 12(2): 937.

    [8]Singh B, Kumar R, Singh V P. Reinforcement learning in robotic app-lications: a comprehensive survey [J]. Artificial Intelligence Review, 2022, 55(2): 945-990.

    [9]Zhang Tengteng, Mo Hongwei. Reinforcement learning for robot research:a comprehensive review and open issues [J]. International Journal of Advanced Robotic Systems, 2021, 18 (3): 17298814211007305.

    [10]Lillicrap T P, Hunt J J, Pritzel A,et al. Continuous control with deep reinforcement learning [EB/OL]. (2015-09-09). https://arxiv.org/abs/1509. 02971.

    [11]Schulman J, Wolski F, Dhariwal P,et al. Proximal policy optimization algorithms [EB/OL]. (2017-07-20).https://arxiv.org/abs/1707. 06347.

    [12]Haarnoja T, Zhou A, Abbeel P,et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//Proc of International Conference on Machine Learning. 2018: 1861-1870.

    [13]Levine S, Finn C, Darrell T,et al. End-to-end training of deep visuomotor policies [J]. Journal of Machine Learning Research, 2016, 17 (39): 1-40.

    [14]申偉霖, 陳薈慧, 關(guān)柏良, 等. 基于均勻掃描和專注引導(dǎo)策略的自主探索算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(11): 3415-3419. (Shen Weilin, Chen Huihui, Guan Boliang, et al. Autonomous exploration algorithm based on uniform scanning and attentive guidance explorer [J]. Application Research of Computers, 2024, 41 (11): 3415-3419.)

    [15]Kroemer O, Niekum S, Konidaris G. A review of robot learning for manipulation:challenges, representations, and algorithms [J]. Journal of machine learning research, 2021, 22 (30): 1-82.

    [16]Song Meiping, Gu Guochang, Zhang Rubo. Behavior control of multi-robot using the prior-knowledge based reinforcement learning[C]//Proc of the 5th World Congress on Intelligent Control and Automation. Piscataway,NJ:IEEE Press, 2004: 5027-5030.

    [17]Le A T, Guo Meng,Van Duijkeren N, et al. Learning forceful mani-pulation skills from multi-modal human demonstrations[C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press, 2021: 7770-7777.

    [18]Qin Fangbo, Xu De, Zhang Dapeng,et al. Robotic skill learning for precision assembly with microscopic vision and force feedback [J]. IEEE/ASME Trans on Mechatronics, 2019, 24 (3): 1117-1128.

    [19]Makondo N, Rosman B, Hasegawa O. Knowledge transfer for lear-ning robot models via local Procrustes analysis[C]//Proc of the 15th IEEE-RAS International Conference on Humanoid Robots. Pisca-taway,NJ:IEEE Press, 2015: 1075-1082.

    [20]Chen Chengjun, Zhang Hao, Pan Yong,et al. Robot autonomous grasping and assembly skill learning based on deep reinforcement learning [J]. The International Journal of Advanced Manufacturing Technology, 2024, 130 (11): 5233-5249.

    [21]Vidakovi J, Jerbi B, ekoranja B,et al. Accelerating robot trajectory learning for stochastic tasks [J]. IEEE Access, 2020, 8: 71993-72006.

    [22]Guzman L, Morellas V, Papanikolopoulos N. Robotic embodiment of human-like motor skills via reinforcement learning [J]. IEEE Robotics and Automation Letters, 2022, 7(2): 3711-3717.

    [23]Li Weiwei, Todorov E. Iterative linear quadratic regulator design for nonlinear biological movement systems[C]//Proc of the 1st International Conference on Informatics in Control, Automation and Robo-tics.[S.l.]:SciTePress, 2004: 222-229.

    [24]Levine S, Koltun V. Guided policy search[C]//Proc of International Conference on Machine Learning. 2013: 1-9.

    [25]Levine S, Wagener N, Abbeel P. Learning contact-rich manipulation skills with guided policy search[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2015:156-163.

    [26]Dong Qingwei, Zeng Peng, Wan Guangxi,et al. Kalman filter-based one-shot sim-to-real transfer learning [J]. IEEE Robotics and Automation Letters, 2023, 9 (1): 311-318.

    大香蕉97超碰在线| 国产免费一级a男人的天堂| 久久毛片免费看一区二区三区| 午夜免费男女啪啪视频观看| 欧美激情国产日韩精品一区| 美女视频免费永久观看网站| 国产色爽女视频免费观看| 韩国av在线不卡| 啦啦啦啦在线视频资源| 亚洲美女搞黄在线观看| 亚洲精品久久成人aⅴ小说| 国产伦理片在线播放av一区| 少妇精品久久久久久久| 久久亚洲国产成人精品v| 国产在线免费精品| 亚洲激情五月婷婷啪啪| 日韩精品有码人妻一区| 午夜久久久在线观看| 亚洲av电影在线观看一区二区三区| 国产av国产精品国产| 亚洲综合精品二区| 亚洲四区av| 精品午夜福利在线看| 婷婷色综合大香蕉| 亚洲一级一片aⅴ在线观看| 精品久久国产蜜桃| 久久韩国三级中文字幕| 18禁在线无遮挡免费观看视频| 色视频在线一区二区三区| 欧美另类一区| 菩萨蛮人人尽说江南好唐韦庄| 美女主播在线视频| 不卡视频在线观看欧美| 热99久久久久精品小说推荐| videos熟女内射| 婷婷成人精品国产| 丝袜美足系列| 久久人人爽人人爽人人片va| 亚洲精品久久久久久婷婷小说| 久久久久久久久久成人| 久久久a久久爽久久v久久| 大香蕉97超碰在线| 男女下面插进去视频免费观看 | a级毛片在线看网站| 亚洲成人一二三区av| 热99国产精品久久久久久7| 欧美丝袜亚洲另类| 日本91视频免费播放| 国产成人精品一,二区| 亚洲国产精品国产精品| 51国产日韩欧美| 黑人欧美特级aaaaaa片| 国产一区亚洲一区在线观看| 日韩一本色道免费dvd| 赤兔流量卡办理| 天堂俺去俺来也www色官网| xxx大片免费视频| 久久久久精品久久久久真实原创| 成人手机av| 日韩伦理黄色片| 我的女老师完整版在线观看| 亚洲成国产人片在线观看| av片东京热男人的天堂| 91国产中文字幕| 午夜视频国产福利| 成人二区视频| 国产69精品久久久久777片| 亚洲av.av天堂| 国产黄色免费在线视频| 伊人亚洲综合成人网| 亚洲av欧美aⅴ国产| 18在线观看网站| 欧美日韩精品成人综合77777| 国产高清国产精品国产三级| 少妇人妻精品综合一区二区| 少妇被粗大的猛进出69影院 | 亚洲精品国产色婷婷电影| 最近的中文字幕免费完整| 18+在线观看网站| 亚洲av中文av极速乱| www.熟女人妻精品国产 | 中文字幕人妻熟女乱码| 18禁在线无遮挡免费观看视频| 乱码一卡2卡4卡精品| 免费观看av网站的网址| 男女国产视频网站| 久热久热在线精品观看| 久久国产精品大桥未久av| 色吧在线观看| 我要看黄色一级片免费的| 乱码一卡2卡4卡精品| 成年美女黄网站色视频大全免费| www.熟女人妻精品国产 | 国产成人免费观看mmmm| 国内精品宾馆在线| 中文精品一卡2卡3卡4更新| 最近最新中文字幕免费大全7| 欧美日韩国产mv在线观看视频| 国产在线一区二区三区精| 国产有黄有色有爽视频| 国产激情久久老熟女| 国产 精品1| 亚洲精华国产精华液的使用体验| 少妇被粗大猛烈的视频| 2021少妇久久久久久久久久久| 国产成人精品一,二区| 人成视频在线观看免费观看| 免费大片18禁| 国产乱人偷精品视频| 熟女电影av网| 男女高潮啪啪啪动态图| 在线观看www视频免费| 久久久久国产网址| 精品一区二区三区四区五区乱码 | 国产成人精品福利久久| 五月玫瑰六月丁香| 国产乱来视频区| 综合色丁香网| 丁香六月天网| freevideosex欧美| 毛片一级片免费看久久久久| 男人添女人高潮全过程视频| 国产一区二区三区av在线| 精品少妇久久久久久888优播| 熟妇人妻不卡中文字幕| 天堂中文最新版在线下载| 国产精品欧美亚洲77777| 激情视频va一区二区三区| 捣出白浆h1v1| 日韩中文字幕视频在线看片| 久久久精品区二区三区| 成人亚洲精品一区在线观看| 爱豆传媒免费全集在线观看| 人妻系列 视频| 91精品三级在线观看| 看非洲黑人一级黄片| 精品久久久精品久久久| 亚洲三级黄色毛片| 99热国产这里只有精品6| 精品国产国语对白av| 又黄又爽又刺激的免费视频.| 久久久久久久久久久久大奶| 啦啦啦视频在线资源免费观看| 91成人精品电影| 成人毛片60女人毛片免费| 久久午夜综合久久蜜桃| 午夜精品国产一区二区电影| 成人亚洲欧美一区二区av| 亚洲av.av天堂| 校园人妻丝袜中文字幕| 丝袜脚勾引网站| 国产精品一二三区在线看| 国产精品偷伦视频观看了| 国产免费福利视频在线观看| 纵有疾风起免费观看全集完整版| 亚洲av日韩在线播放| 精品午夜福利在线看| 中文字幕精品免费在线观看视频 | 免费看光身美女| 亚洲av日韩在线播放| 观看av在线不卡| 久久久久人妻精品一区果冻| 毛片一级片免费看久久久久| 国产精品国产三级国产专区5o| tube8黄色片| 日韩成人伦理影院| 国产在线视频一区二区| 母亲3免费完整高清在线观看 | 久久综合国产亚洲精品| 国产色爽女视频免费观看| 亚洲一区二区三区欧美精品| 久久久久久久精品精品| 久热这里只有精品99| 只有这里有精品99| 丝袜美足系列| 欧美97在线视频| 国产精品无大码| 久久精品国产综合久久久 | 久久97久久精品| 亚洲国产精品国产精品| 一区二区三区精品91| av在线播放精品| 午夜福利视频在线观看免费| 欧美日韩成人在线一区二区| 91精品伊人久久大香线蕉| 免费黄频网站在线观看国产| 日韩中字成人| 午夜福利影视在线免费观看| 久久亚洲国产成人精品v| 精品久久久久久电影网| 久久99热6这里只有精品| 久久久久久久久久人人人人人人| 国产国拍精品亚洲av在线观看| 国产成人aa在线观看| 亚洲,欧美,日韩| 日韩精品有码人妻一区| 黄网站色视频无遮挡免费观看| 看十八女毛片水多多多| 亚洲欧洲精品一区二区精品久久久 | 久久久久国产网址| 国产激情久久老熟女| 国产欧美日韩一区二区三区在线| 天天躁夜夜躁狠狠久久av| 精品久久国产蜜桃| 精品99又大又爽又粗少妇毛片| 亚洲av日韩在线播放| 成人18禁高潮啪啪吃奶动态图| 免费黄色在线免费观看| 成人亚洲欧美一区二区av| 2018国产大陆天天弄谢| 内地一区二区视频在线| 免费人妻精品一区二区三区视频| 9191精品国产免费久久| 高清视频免费观看一区二区| 2018国产大陆天天弄谢| 91成人精品电影| 亚洲美女黄色视频免费看| 午夜福利影视在线免费观看| 十八禁网站网址无遮挡| 十分钟在线观看高清视频www| 久久国内精品自在自线图片| 日本黄色日本黄色录像| 男女高潮啪啪啪动态图| 巨乳人妻的诱惑在线观看| 69精品国产乱码久久久| 亚洲欧美清纯卡通| www.av在线官网国产| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲成人一二三区av| 久久人妻熟女aⅴ| 国产精品女同一区二区软件| 考比视频在线观看| 久久久久久伊人网av| 欧美成人午夜精品| 免费观看在线日韩| 亚洲精品av麻豆狂野| 乱码一卡2卡4卡精品| 久久99精品国语久久久| 曰老女人黄片| 国产熟女欧美一区二区| 搡老乐熟女国产| 精品亚洲成国产av| 亚洲精品,欧美精品| 中文字幕av电影在线播放| 国产成人精品一,二区| av福利片在线| 秋霞在线观看毛片| 成人亚洲欧美一区二区av| 久久久久人妻精品一区果冻| 亚洲三级黄色毛片| 亚洲av男天堂| 国产深夜福利视频在线观看| 亚洲熟女精品中文字幕| 我要看黄色一级片免费的| 尾随美女入室| xxx大片免费视频| 性色av一级| 黑丝袜美女国产一区| 成人18禁高潮啪啪吃奶动态图| 久久久国产欧美日韩av| 亚洲欧洲日产国产| 高清在线视频一区二区三区| 99香蕉大伊视频| 人妻少妇偷人精品九色| 国产成人精品久久久久久| 一二三四中文在线观看免费高清| 人妻一区二区av| 亚洲精品色激情综合| 晚上一个人看的免费电影| 免费观看在线日韩| av国产久精品久网站免费入址| 久久久欧美国产精品| 我的女老师完整版在线观看| 久久精品国产鲁丝片午夜精品| 一区二区三区精品91| av电影中文网址| 亚洲精品一二三| 成人国产麻豆网| a级毛色黄片| 国产精品久久久久久久电影| 国产av国产精品国产| 久久婷婷青草| 亚洲一级一片aⅴ在线观看| 久久精品久久久久久久性| 最近中文字幕2019免费版| 精品第一国产精品| 久久久精品免费免费高清| 精品一区二区免费观看| 国产欧美日韩一区二区三区在线| 美女主播在线视频| 建设人人有责人人尽责人人享有的| 久久女婷五月综合色啪小说| 亚洲精品久久午夜乱码| 国产精品人妻久久久久久| 国产精品人妻久久久影院| 如何舔出高潮| 这个男人来自地球电影免费观看 | 久久久久人妻精品一区果冻| 天天影视国产精品| 久久精品久久久久久噜噜老黄| 亚洲欧美日韩另类电影网站| 亚洲人成77777在线视频| 久久ye,这里只有精品| 巨乳人妻的诱惑在线观看| 精品国产一区二区久久| 丝瓜视频免费看黄片| 亚洲天堂av无毛| 亚洲人与动物交配视频| 精品福利永久在线观看| 在现免费观看毛片| 免费女性裸体啪啪无遮挡网站| 亚洲高清免费不卡视频| 成年人免费黄色播放视频| 狂野欧美激情性xxxx在线观看| 成年女人在线观看亚洲视频| 啦啦啦在线观看免费高清www| av线在线观看网站| 人人妻人人澡人人看| 欧美丝袜亚洲另类| 91aial.com中文字幕在线观看| 免费黄色在线免费观看| 亚洲av中文av极速乱| 亚洲欧美中文字幕日韩二区| 满18在线观看网站| 美女国产高潮福利片在线看| 中文字幕人妻丝袜制服| 亚洲综合精品二区| 狠狠婷婷综合久久久久久88av| 亚洲,一卡二卡三卡| 亚洲,欧美精品.| 午夜久久久在线观看| 夜夜爽夜夜爽视频| 亚洲内射少妇av| 少妇精品久久久久久久| 亚洲一级一片aⅴ在线观看| 久久精品久久久久久久性| 成人毛片a级毛片在线播放| 欧美日韩国产mv在线观看视频| 成年人免费黄色播放视频| 国产成人av激情在线播放| 欧美变态另类bdsm刘玥| 国产亚洲午夜精品一区二区久久| tube8黄色片| 成人国产麻豆网| 人妻系列 视频| 这个男人来自地球电影免费观看 | 99久久精品国产国产毛片| 大陆偷拍与自拍| 亚洲婷婷狠狠爱综合网| 人体艺术视频欧美日本| 人妻人人澡人人爽人人| 精品国产露脸久久av麻豆| 亚洲国产最新在线播放| 肉色欧美久久久久久久蜜桃| 高清欧美精品videossex| 国产有黄有色有爽视频| 热99国产精品久久久久久7| 狠狠婷婷综合久久久久久88av| 一本久久精品| 在线看a的网站| 一本大道久久a久久精品| 黑丝袜美女国产一区| 国产免费一区二区三区四区乱码| 夫妻性生交免费视频一级片| 夜夜骑夜夜射夜夜干| 你懂的网址亚洲精品在线观看| 王馨瑶露胸无遮挡在线观看| 中文字幕人妻丝袜制服| 美女国产高潮福利片在线看| 91午夜精品亚洲一区二区三区| 狂野欧美激情性bbbbbb| 亚洲av中文av极速乱| 99热6这里只有精品| freevideosex欧美| 亚洲成人一二三区av| 国产精品无大码| 亚洲精品456在线播放app| 一区在线观看完整版| 亚洲成人一二三区av| 哪个播放器可以免费观看大片| 欧美成人精品欧美一级黄| 中文字幕人妻熟女乱码| 久久精品国产鲁丝片午夜精品| 色婷婷av一区二区三区视频| 成年av动漫网址| 亚洲精品日韩在线中文字幕| 丝袜美足系列| 亚洲人成网站在线观看播放| 免费播放大片免费观看视频在线观看| 欧美 亚洲 国产 日韩一| 国产精品国产av在线观看| 亚洲av.av天堂| 日韩欧美精品免费久久| 日日摸夜夜添夜夜爱| 免费黄频网站在线观看国产| 国产熟女午夜一区二区三区| 女性被躁到高潮视频| 国产成人一区二区在线| 精品国产乱码久久久久久小说| 国产精品一区www在线观看| 午夜福利网站1000一区二区三区| 秋霞在线观看毛片| 五月伊人婷婷丁香| 美女视频免费永久观看网站| 欧美日韩精品成人综合77777| 日韩一区二区三区影片| 亚洲色图 男人天堂 中文字幕 | 亚洲成色77777| 精品卡一卡二卡四卡免费| 亚洲人成77777在线视频| 午夜福利影视在线免费观看| 伊人亚洲综合成人网| 亚洲精品成人av观看孕妇| freevideosex欧美| 女人被躁到高潮嗷嗷叫费观| 亚洲av.av天堂| 夜夜爽夜夜爽视频| 男女国产视频网站| 国产一区二区三区综合在线观看 | 最近最新中文字幕大全免费视频 | 欧美日韩精品成人综合77777| 亚洲美女搞黄在线观看| av又黄又爽大尺度在线免费看| 精品视频人人做人人爽| 中文字幕最新亚洲高清| 黄色配什么色好看| 99九九在线精品视频| 全区人妻精品视频| 狂野欧美激情性bbbbbb| 免费观看a级毛片全部| 黑人巨大精品欧美一区二区蜜桃 | 少妇的逼水好多| 久久综合国产亚洲精品| 亚洲美女视频黄频| 哪个播放器可以免费观看大片| 一边摸一边做爽爽视频免费| 中文天堂在线官网| 丰满少妇做爰视频| 色5月婷婷丁香| 夫妻午夜视频| 成人综合一区亚洲| 亚洲av福利一区| 国产一区有黄有色的免费视频| av片东京热男人的天堂| 久久久久久人人人人人| 伊人亚洲综合成人网| 男男h啪啪无遮挡| 国产成人一区二区在线| 久久影院123| av视频免费观看在线观看| av免费在线看不卡| 乱人伦中国视频| 久久久久精品久久久久真实原创| 韩国av在线不卡| 成年美女黄网站色视频大全免费| 免费观看性生交大片5| 免费看不卡的av| 女人精品久久久久毛片| 欧美成人精品欧美一级黄| 国产永久视频网站| 大香蕉97超碰在线| 成人亚洲欧美一区二区av| 日本爱情动作片www.在线观看| 亚洲丝袜综合中文字幕| 人人妻人人澡人人看| 黄网站色视频无遮挡免费观看| av.在线天堂| 亚洲色图综合在线观看| 少妇精品久久久久久久| 免费在线观看黄色视频的| 99热全是精品| 在线看a的网站| 看免费av毛片| 久久久欧美国产精品| av又黄又爽大尺度在线免费看| 内地一区二区视频在线| 如日韩欧美国产精品一区二区三区| 亚洲人与动物交配视频| 国产成人精品在线电影| av国产精品久久久久影院| 日本黄色日本黄色录像| 欧美人与性动交α欧美软件 | 王馨瑶露胸无遮挡在线观看| 精品人妻偷拍中文字幕| 国产无遮挡羞羞视频在线观看| 亚洲欧美成人综合另类久久久| 日本欧美视频一区| 成人18禁高潮啪啪吃奶动态图| av有码第一页| 亚洲国产精品成人久久小说| av免费观看日本| 久久久a久久爽久久v久久| 狂野欧美激情性xxxx在线观看| 亚洲中文av在线| 亚洲精品日本国产第一区| 中文欧美无线码| 男女午夜视频在线观看 | 九草在线视频观看| 老司机影院成人| 久久99精品国语久久久| av在线app专区| 国产片内射在线| 日韩熟女老妇一区二区性免费视频| 老司机影院成人| 如日韩欧美国产精品一区二区三区| av在线app专区| 国产视频首页在线观看| 亚洲av电影在线进入| 国产精品一区www在线观看| 日本午夜av视频| 一个人免费看片子| 激情五月婷婷亚洲| 欧美最新免费一区二区三区| 午夜激情av网站| 26uuu在线亚洲综合色| 成人综合一区亚洲| 啦啦啦中文免费视频观看日本| 午夜福利在线观看免费完整高清在| 一级黄片播放器| 日韩精品有码人妻一区| videos熟女内射| 久久久精品94久久精品| 波野结衣二区三区在线| 欧美精品亚洲一区二区| 国产一区二区在线观看日韩| 国产色婷婷99| 亚洲,一卡二卡三卡| 亚洲精品aⅴ在线观看| 亚洲成人一二三区av| 日韩三级伦理在线观看| 精品少妇黑人巨大在线播放| 色婷婷久久久亚洲欧美| av福利片在线| 国产日韩欧美在线精品| 天堂8中文在线网| 99视频精品全部免费 在线| 人妻系列 视频| 我的女老师完整版在线观看| 色5月婷婷丁香| 又黄又粗又硬又大视频| 午夜av观看不卡| 国产又爽黄色视频| 一区二区三区四区激情视频| av网站免费在线观看视频| 国产精品蜜桃在线观看| 亚洲av成人精品一二三区| 亚洲丝袜综合中文字幕| 男男h啪啪无遮挡| 日韩av在线免费看完整版不卡| 99久久人妻综合| 欧美另类一区| 99国产综合亚洲精品| 麻豆乱淫一区二区| 亚洲av.av天堂| 人人妻人人爽人人添夜夜欢视频| 99久国产av精品国产电影| 国产熟女午夜一区二区三区| 成年女人在线观看亚洲视频| 一区二区三区四区激情视频| av网站免费在线观看视频| 日韩制服丝袜自拍偷拍| 男女高潮啪啪啪动态图| 欧美日韩综合久久久久久| 激情视频va一区二区三区| 五月玫瑰六月丁香| 久久鲁丝午夜福利片| 久久国内精品自在自线图片| 国产 一区精品| 午夜影院在线不卡| 中文字幕av电影在线播放| 日韩一本色道免费dvd| 精品亚洲乱码少妇综合久久| 欧美精品av麻豆av| 国产熟女欧美一区二区| 国产成人欧美| 久久久国产一区二区| 国产免费现黄频在线看| 亚洲精品第二区| 色婷婷av一区二区三区视频| 伦精品一区二区三区| a级毛片黄视频| 精品久久久久久电影网| 久久久久久久久久成人| 欧美国产精品va在线观看不卡| 最新中文字幕久久久久| 亚洲精品一二三| 99久国产av精品国产电影| 国产极品粉嫩免费观看在线| 亚洲欧美成人精品一区二区| 99久国产av精品国产电影| 久久精品久久久久久噜噜老黄| 久久久欧美国产精品| 欧美人与性动交α欧美软件 | 在线观看一区二区三区激情| 亚洲欧美日韩卡通动漫| 久久免费观看电影| 97在线人人人人妻| 日本av手机在线免费观看| 日韩人妻精品一区2区三区| videos熟女内射| 久久97久久精品| 最新的欧美精品一区二区| 日本欧美视频一区| 嫩草影院入口| 亚洲美女黄色视频免费看| 亚洲精品久久成人aⅴ小说| 性色avwww在线观看| 日韩中字成人| 18+在线观看网站| 国产精品熟女久久久久浪| 国产精品秋霞免费鲁丝片| 亚洲,欧美精品.| 9热在线视频观看99| 国产麻豆69| 捣出白浆h1v1|