• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于逆強化學(xué)習(xí)與行為樹的機械臂復(fù)雜操作技能學(xué)習(xí)方法

    2024-04-02 03:42:44宋越杰馬陳昊孟子晗劉元歸
    現(xiàn)代電子技術(shù) 2024年7期
    關(guān)鍵詞:操作技能機械環(huán)境

    宋越杰,馬陳昊,孟子晗,劉元歸

    (南京郵電大學(xué)自動化學(xué)院人工智能學(xué)院,江蘇南京 210023)

    0 引 言

    社會老齡化的加劇與各種意外事故的發(fā)生,導(dǎo)致老殘人群數(shù)量日益增加,不同程度的肢體殘障對老殘人群的日常生活產(chǎn)生了較大影響。為在一定程度上解決上述問題,除了提供社會支持和無障礙環(huán)境外,助老助殘輔助設(shè)備的開發(fā)也非常重要。隨著機器人技術(shù)的發(fā)展,機器人在改善或替代受損肢體功能方面的研究,近年來取得了較多有影響力的成果[1],特別是伴隨人工智能技術(shù)的引入,機器人在輔助老殘人群日常生活活動操作方面,尤其是在機械臂學(xué)習(xí)人類的日常生活活動操作技能方面,國內(nèi)外研究非常深入并取得了較好的進展[2]。

    在機械臂學(xué)習(xí)人類的日常生活活動操作技能方面,針對較為簡單的操作任務(wù),可以分為模仿學(xué)習(xí)與強化學(xué)習(xí)兩種不同類型的機器學(xué)習(xí)方法。模仿學(xué)習(xí)是一種監(jiān)督學(xué)習(xí)方法,它通過觀察和模仿專家的行為來獲取人類操作技能的仿生學(xué)習(xí)方式[3],具體又可分為軌跡編碼、動態(tài)系統(tǒng)及策略過程三種不同類型。在軌跡編碼模仿學(xué)習(xí)方面,文獻[4]運用基于參數(shù)化的高斯混合模型學(xué)習(xí)了人機協(xié)作搬運與裝配操作技能,文獻[5]基于Baxter 協(xié)作機器人平臺并運用隱半馬爾科夫模型學(xué)習(xí)了人類的穿衣技能。動態(tài)運動基元作為動態(tài)系統(tǒng)模仿學(xué)習(xí)方法的典型代表,在機器人輔助操作技能學(xué)習(xí)方面也得到了較好的應(yīng)用。文獻[6]通過融合動態(tài)運動基元與概率運動基元兩類不同的動態(tài)系統(tǒng)模仿學(xué)習(xí)方法,構(gòu)建了概率動態(tài)運動基元學(xué)習(xí)框架,并在機器人輔助日常生活拾取操作中進行了較好的驗證。針對策略過程模仿學(xué)習(xí)方法,文獻[7]為提高技能的泛化性能,運用逆強化學(xué)習(xí)方法學(xué)習(xí)了變阻抗控制參數(shù)及獎勵函數(shù),并通過機器人輔助插孔和杯盤放置實驗驗證了算法的有效性。同模仿學(xué)習(xí)不同的是,強化學(xué)習(xí)是通過智能體與環(huán)境的交互試錯來學(xué)習(xí)最優(yōu)策略的一種方法。文獻[8]運用基于近端策略優(yōu)化的強化學(xué)習(xí)算法,通過設(shè)計連續(xù)獎勵函數(shù),學(xué)習(xí)了雙臂機器人從床上扶起患者的操作技能軌跡。文獻[9]為在一定程度上解決深度強化學(xué)習(xí)在機器人本體上的部署問題,通過聯(lián)合深度P 網(wǎng)絡(luò)及對決深度P 網(wǎng)絡(luò),以減少樣本數(shù)量并提高樣本學(xué)習(xí)效率與穩(wěn)定性。

    上述單純基于模仿學(xué)習(xí)與強化學(xué)習(xí)的機器人輔助操作技能,在相對較為簡單的操作任務(wù)場景中具有較好的效果,但是面對復(fù)雜多階段的操作任務(wù)仍存在一定的欠缺。為解決上述問題,基于分層學(xué)習(xí)的機器人操作技能學(xué)習(xí)框架日益受到關(guān)注。文獻[10]針對復(fù)雜多階段的機器人輔助電纜布線任務(wù),提出了一種分層模仿學(xué)習(xí)框架,其中底層采用行為克隆學(xué)習(xí)單個夾子布線操作技能,上層采用深度網(wǎng)絡(luò)學(xué)習(xí)不同布線階段的執(zhí)行順序,二者結(jié)合較好地完成了整個布線任務(wù)。作者所在課題組前期提出了一種基于分層強化學(xué)習(xí)的機械臂復(fù)雜操作技能學(xué)習(xí)方法,底層運用SAC(Soft Actor Critic)算法學(xué)習(xí)子任務(wù)操作技能,根據(jù)底層得到的子任務(wù)最優(yōu)策略,上層進一步通過改進的最大熵目標強化學(xué)習(xí)算法學(xué)習(xí)子任務(wù)執(zhí)行順序[11]。文獻[12]提出了一種基于層次強化學(xué)習(xí)的機械臂手內(nèi)魯棒控制方法,通過定義底層操作基元并結(jié)合中層深度強化學(xué)習(xí)網(wǎng)絡(luò),實現(xiàn)了物體位姿及手指接觸點位置發(fā)生改變情況下的機器人操作方法,三指機械手的仿真實驗驗證了所提方法的有效性。

    上述分層強化學(xué)習(xí)方法雖取得了一定的效果,但在實際應(yīng)用中,一方面,底層子任務(wù)學(xué)習(xí)存在樣本效率低、獎勵稀疏等問題,上層任務(wù)規(guī)劃學(xué)習(xí)面臨學(xué)習(xí)時間過長甚至難以完全學(xué)會整個復(fù)雜任務(wù)的問題;另一方面,由于仿真與真實環(huán)境之間存在差異,導(dǎo)致仿真環(huán)境遷移到真實環(huán)境后的策略可能會失效。針對上述問題,本文提出了一種基于逆強化學(xué)習(xí)與行為樹的機械臂復(fù)雜操作技能學(xué)習(xí)框架,其中,逆強化學(xué)習(xí)用于學(xué)習(xí)底層子任務(wù)最優(yōu)策略,然后將具有最優(yōu)策略的子任務(wù)作為節(jié)點,在上層構(gòu)建行為樹來實現(xiàn)不同子任務(wù)間的任務(wù)規(guī)劃,進而實現(xiàn)機械臂復(fù)雜操作技能的學(xué)習(xí)與再現(xiàn)。

    1 方 法

    1.1 基于逆強化學(xué)習(xí)和行為樹的機械臂復(fù)雜操作技能學(xué)習(xí)系統(tǒng)

    為了解決分層強化學(xué)習(xí)算法底層子任務(wù)學(xué)習(xí)存在的樣本效率低、獎勵稀疏等問題,上層任務(wù)規(guī)劃學(xué)習(xí)面臨學(xué)習(xí)時間過長甚至難以完全學(xué)會整個復(fù)雜任務(wù)的問題,本文提出了基于逆強化學(xué)習(xí)和行為樹的機械臂復(fù)雜操作技能學(xué)習(xí)框架。

    本文提出的基于逆強化學(xué)習(xí)和行為樹的機械臂復(fù)雜操作技能學(xué)習(xí)系統(tǒng)框圖如圖1 所示。該系統(tǒng)框圖分為底層子任務(wù)學(xué)習(xí)和上層復(fù)雜任務(wù)規(guī)劃,其中底層子任務(wù)學(xué)習(xí)主要包括復(fù)雜任務(wù)分割模塊、RL 參數(shù)設(shè)計模塊、逆強化學(xué)習(xí)模塊;上層任務(wù)規(guī)劃主要包括真實環(huán)境部署模塊和行為樹構(gòu)建模塊。主要實現(xiàn)方案為:通過仿真環(huán)境構(gòu)建模塊建立相應(yīng)的仿真環(huán)境,并進行復(fù)雜操作任務(wù)演示,得到復(fù)雜任務(wù)演示軌跡;接著通過復(fù)雜任務(wù)分割模塊進行分割,并確定分割后每個子任務(wù)的RL 參數(shù),得到子任務(wù)專家策略集合;然后通過逆強化學(xué)習(xí)模塊獲取每個子任務(wù)的最優(yōu)策略,并部署到真實環(huán)境中;最后通過行為樹構(gòu)建模塊構(gòu)建行為樹,得到整體最優(yōu)策略,在真實環(huán)境中執(zhí)行復(fù)雜操作任務(wù)。

    圖1 基于逆強化學(xué)習(xí)和行為樹的機械臂復(fù)雜操作技能學(xué)習(xí)系統(tǒng)框圖

    1.2 基于GAIL 和SAC 的底層子任務(wù)學(xué)習(xí)方法

    本文使用文獻[11]所在課題組分割復(fù)雜任務(wù)的方法,采用基于β過程的自回歸隱馬爾科夫模型分割復(fù)雜任務(wù),并且設(shè)計了底層子任務(wù)的學(xué)習(xí)方法。

    1.2.1 底層子任務(wù)學(xué)習(xí)框架

    逆強化學(xué)習(xí)是利用有限的專家樣本推斷獎勵函數(shù),并根據(jù)該獎勵函數(shù)尋找最優(yōu)策略的一種方法。本文采用生成對抗模仿學(xué)習(xí)[13]從專家演示軌跡中學(xué)習(xí)到子任務(wù)的獎勵函數(shù),在此基礎(chǔ)上進一步根據(jù)獎勵函數(shù)并通過SAC算法尋找到子任務(wù)最優(yōu)策略,其算法框圖如圖2 所示。

    圖2 GAIL+SAC 算法框圖

    生成對抗模仿學(xué)習(xí)主要由生成器和判別器兩個部分組成。生成器根據(jù)專家策略產(chǎn)生生成策略,力求使判別器無法分辨其與專家策略的差異;而判別器則旨在辨別生成器產(chǎn)生的生成策略是否是專家策略。生成器和判別器相互博弈,通過不斷對抗,最終訓(xùn)練出一個優(yōu)越的獎勵函數(shù)和策略網(wǎng)絡(luò)。

    在得到獎勵函數(shù)和策略網(wǎng)絡(luò)后,使用SAC 算法進行訓(xùn)練,通過GAIL 得到獎勵函數(shù)和生成策略,SAC 算法不再從頭開始訓(xùn)練策略,而是在有限的專家經(jīng)驗基礎(chǔ)上,更高效地訓(xùn)練出適應(yīng)性強、性能優(yōu)越的子任務(wù)智能體。

    1.2.2 底層子任務(wù)學(xué)習(xí)方法

    底層子任務(wù)通過GAIL+SAC 框架來學(xué)習(xí)得到子任務(wù)最優(yōu)策略。

    GAIL 包括生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)。首先為生成器提供少量的專家策略,記為πE,記生成器網(wǎng)絡(luò)輸入為子任務(wù)專家策略集合πE中的狀態(tài)動作對(s,a),輸出為生成器模仿子任務(wù)專家策略生成的子任務(wù)生成策略πg(shù),記為策略Gw(s,a),生成器的損失函數(shù)LG為:

    式中:Eπg(shù)表示期望值;DΦ(Gw(s,a) )表示判別器D 判斷策略,DΦ(Gw(s,a) )= sigmoid(Gw(s,a)),其中sigmoid 是一種激活函數(shù),Gw(s,a)是專家軌跡的概率。

    通過添加熵來鼓勵生成器生成多變的軌跡,熵損失LE為:

    式中:σ為熵損失系數(shù);softplus 是一種激活函數(shù)。

    判別器的輸入為Gw(s,a),輸出為DΦ(Gw(s,a) ),判別器的損失函數(shù)LD為:

    因此,生成對抗模仿學(xué)習(xí)模型的總損失函數(shù)為:Ltotal=LG+LE+LD。

    通過訓(xùn)練好的判別器D 的輸出作為獎勵函數(shù)訓(xùn)練模仿者策略,所述獎勵函數(shù)R(s,a)為:

    式中:β表示熵損失權(quán)重;DΦ(Gw(s,a) )表示判別器D 判斷策略Gw(s,a)是專家軌跡的概率。

    通過GAIL 預(yù)訓(xùn)練得到獎勵函數(shù)和策略網(wǎng)絡(luò)后,將其引入到SAC 算法進行正式訓(xùn)練。

    SAC 算法的過程是:

    1)從經(jīng)驗池中采樣當前時刻的狀態(tài)st、動作at、獎勵r、下一時刻的狀態(tài)st+1后,送入策略網(wǎng)絡(luò),輸出下一時刻的策略πθ(st+1)和熵log (πθ(at|st)),同時更新策略網(wǎng)絡(luò)參數(shù),更新公式如下:

    其中:

    2)將經(jīng)驗池中當前時刻的狀態(tài)st、動作at、獎勵r輸出至主值網(wǎng)絡(luò),通過主值網(wǎng)絡(luò)中的兩個Q網(wǎng)絡(luò)Net1 和Net2 來計算估計Q值Qt(?1)、Qt(?2)。

    3)將策略網(wǎng)絡(luò)輸出的策略和熵通過目標值網(wǎng)絡(luò)中的兩個Q網(wǎng)絡(luò)Net1 和Net2 來計算目標Q值,并輸出兩個目標Q值中的較小值,與主值網(wǎng)絡(luò)計算的估計Q值作均方誤差計算,其目標函數(shù)如下:

    同時目標值網(wǎng)絡(luò)參數(shù)通過主值網(wǎng)絡(luò)參數(shù)進行軟更新,更新方式如下:

    4)主值網(wǎng)絡(luò)的參數(shù)更新方式如下:

    1.3 基于行為樹的上層子任務(wù)規(guī)劃方法

    1.3.1 真實環(huán)境部署

    現(xiàn)有強化學(xué)習(xí)方法大多采用先在仿真環(huán)境中進行訓(xùn)練,再部署到真實環(huán)境中的方法,但由于仿真環(huán)境和真實環(huán)境存在一定的誤差,比如建模差異、環(huán)境差異、姿態(tài)差異等,導(dǎo)致在部署過程中會產(chǎn)生策略失效的問題。

    在本文的實驗中,仿真環(huán)境與真實環(huán)境的差距主要為機械臂末端的姿態(tài)差距。為了彌補姿態(tài)差距,首先將真實環(huán)境中的機械臂置于初始位姿,獲取此時機械臂每個關(guān)節(jié)的旋轉(zhuǎn)角度JR1、JR2、JR3、JR4、JR5、JR6以及真實環(huán)境中機械臂末端位置xR、yR、zR和姿態(tài)的四元數(shù)dxR、dyR、dzR、dwR;接著將姿態(tài)四元數(shù)dxR、dyR、dzR、dwR轉(zhuǎn)換為歐拉角XR、YR、ZR,在仿真環(huán)境中機械臂每個關(guān)節(jié)的旋轉(zhuǎn)角度JS1、JS2、JS3、JS4、JS5、JS6置為JR1、JR2、JR3、JR4、JR5、JR6,并獲取此時仿真環(huán)境中機械臂的歐拉角XS、YS、ZS;最后求出仿真環(huán)境與真實環(huán)境中機械臂的姿態(tài)差ΔX=XR-XS、ΔY=YR-YS、ΔZ=ZR-ZS。

    1.3.2 基于行為樹的上層子任務(wù)規(guī)劃

    行為樹是一種用于描述和控制智能體行為的圖形化模型。它是一種樹形結(jié)構(gòu),其中每個節(jié)點代表一種行為或控制邏輯,主要包括控制節(jié)點、裝飾器節(jié)點、條件節(jié)點、動作節(jié)點等。

    行為樹的節(jié)點構(gòu)建如圖3 所示。子任務(wù)的行為樹執(zhí)行由一個帶記憶功能的順序節(jié)點來確定執(zhí)行順序,該順序節(jié)點的子節(jié)點包括一個條件節(jié)點和一個動作節(jié)點。其中條件節(jié)點根據(jù)當前環(huán)境狀態(tài)和任務(wù)目標判斷是否滿足執(zhí)行子策略的前提條件,如果滿足執(zhí)行條件,則向順序節(jié)點返回成功,順序節(jié)點繼續(xù)執(zhí)行;如果不滿足執(zhí)行條件,則返回失敗,順序節(jié)點向其父節(jié)點返回失敗,直接結(jié)束當前回合。動作節(jié)點根據(jù)當前環(huán)境的狀態(tài)執(zhí)行強化學(xué)習(xí)子策略,并接收實時獎勵,如果實時獎勵大于任務(wù)成功獎勵,則向順序節(jié)點返回成功,順序節(jié)點繼續(xù)執(zhí)行下一個子任務(wù);如果在一定時間后未達到成功獎勵,則向順序節(jié)點返回失敗,順序節(jié)點向其父節(jié)點返回失敗,直接結(jié)束當前回合。

    圖3 行為樹節(jié)點構(gòu)建

    2 實驗與仿真

    2.1 實驗任務(wù)設(shè)計

    本實驗的仿真環(huán)境通過物理仿真引擎MuJoCo 對基于逆強化學(xué)習(xí)和行為樹的機械臂復(fù)雜操作技能學(xué)習(xí)進行驗證,所使用的是Kinova Jaco2 機械臂,型號為j2n6s300;真實環(huán)境通過rviz 可視化機械臂操作,并通過行為樹來控制機械臂。

    為了充分考慮家庭環(huán)境中任務(wù)的多樣性和復(fù)雜性,同時考慮到老年人日常需求,本文將拉開抽屜拿取藥瓶作為實驗任務(wù)。

    首先建立拉開抽屜拿取藥瓶的實驗場景,如圖4所示。

    接著執(zhí)行拉開抽屜拿取藥瓶的實驗任務(wù),記錄下機械臂末端的軌跡,0 即機械臂末端的位置和姿態(tài)。然后采用基于β過程的自回歸隱馬爾科夫模型對所采集的演示數(shù)據(jù)進行分割,分割結(jié)果如圖5 所示。

    圖5 機械臂復(fù)雜操作任務(wù)分割結(jié)果

    圖5 為位置和四元數(shù)隨時間變化的曲線圖,不同顏色的區(qū)間表示基于β過程的自回歸隱馬爾科夫模型算法分割得到的不同任務(wù)區(qū)間。根據(jù)四元數(shù)可以看出分割出了4 段具有明顯物理意義的分段,分別為抓取抽屜把手(分段①)、拉開抽屜(分段②)、抓取物體(分段⑥)、放置物體(分段⑨)。

    最后為所有分割的子任務(wù)建立仿真訓(xùn)練環(huán)境,圖6為4個子任務(wù)的訓(xùn)練環(huán)境。圖6a)為抓取抽屜把手,任務(wù)目標為機械臂末端抓取抽屜把手;圖6b)為拉開抽屜,任務(wù)目標為機械臂末端將抽屜把手拉至目標點;圖6c)為抓取物體,任務(wù)目標為機械臂抓取抽屜中的物體;圖6d)為放置物體,任務(wù)目標為將物體放置到藍色小球處。

    圖6 子任務(wù)仿真訓(xùn)練環(huán)境

    在所有子任務(wù)的仿真環(huán)境都建立好后,接下來進行實驗參數(shù)設(shè)置。

    2.2 實驗參數(shù)設(shè)置

    2.2.1 子任務(wù)專家策略的RL 參數(shù)設(shè)置

    每個子任務(wù)的專家策略包括:機械臂當前時刻t的狀態(tài)空間St、當前時刻t的動作空間At、下一時刻t+ 1 的狀態(tài)空間St+1、當前時刻t的實時獎勵Rt、一個回合結(jié)束的最終獎勵Repisode和一個回合開始的標志位Estart。其中狀態(tài)空間為所有子任務(wù)狀態(tài)空間的并集,包括機械臂夾持器1 維、機械臂位置3 維、機械臂姿態(tài)3 維、藥瓶位置3 維、抽屜把手位置3 維、藥瓶放置位置3 維、藥瓶放置姿態(tài)3 維、目標點位置3 維、目標點姿態(tài)3 維,總計25 維;所有子任務(wù)的動作空間都是7 維,其中前6 維表示機械臂末端的位置和姿態(tài),第7 維表示末端夾持器開合程度;實時獎勵Rt為機械臂在狀態(tài)St時的獎勵函數(shù);最終獎勵Repisode為回合結(jié)束后機械臂得到的獎勵;標志位Estart在開始時為1,表示回合開始,其余時刻均為0。

    2.2.2 GAIL 與SAC 網(wǎng)絡(luò)參數(shù)設(shè)計

    在GAIL 算法的網(wǎng)絡(luò)結(jié)構(gòu)中,預(yù)訓(xùn)練的總時間步total_timestep 設(shè)為100 萬,學(xué)習(xí)率learning_rate 設(shè)為7×10-9,預(yù)訓(xùn)練的迭代次數(shù)n_epochs 設(shè)為10 000,驗證間隔interval 設(shè)置為100,每個epoch 中訓(xùn)練策略的步數(shù)g_step設(shè)為3,每個epoch 中訓(xùn)練鑒別器的步數(shù)d_step 設(shè)為3,獎勵分配器步長d_stepsize 設(shè)為0.000 3,生成器熵損失系數(shù)σ設(shè)為0.001,判別器輸出獎勵函數(shù)的熵損失權(quán)重β設(shè)為10-8。

    在SAC算法的網(wǎng)絡(luò)結(jié)構(gòu)中,每個網(wǎng)絡(luò)層之間的激活函數(shù)采用ReLU函數(shù),經(jīng)驗池大小buffer_size設(shè)置為16 384,每次訓(xùn)練從經(jīng)驗池中采樣樣本數(shù)量batch_size 設(shè)為256,學(xué)習(xí)率learning_rate 為7×10-5,折扣因子gamma 為0.99,Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)均采用Adam 優(yōu)化器進行優(yōu)化。

    2.3 實驗結(jié)果

    2.3.1 底層子任務(wù)訓(xùn)練結(jié)果

    底層子任務(wù)的訓(xùn)練過程中采用GAIL+SAC 算法對子策略進行訓(xùn)練,并將其與僅采用SAC 算法的訓(xùn)練進行對比,對比結(jié)果展示在圖7 中。

    圖7 底層子任務(wù)訓(xùn)練結(jié)果

    觀察到GAIL+SAC 方法所需的時間步遠遠少于僅采用SAC 方法的情況。在放置物體任務(wù)的過程中,由于龐大的狀態(tài)空間,SAC 算法訓(xùn)練的模型甚至出現(xiàn)了局部最優(yōu)的情況。

    接著對每個子任務(wù)的最優(yōu)策略在仿真環(huán)境中進行25 次測試,測試結(jié)果見表1。研究表明,采用GAIL+SAC 算法的成功率明顯高于僅采用SAC 算法的情況。

    表1 子任務(wù)最優(yōu)策略在仿真環(huán)境中的成功率 %

    2.3.2 上層復(fù)雜任務(wù)執(zhí)行結(jié)果

    基于復(fù)雜任務(wù)的執(zhí)行邏輯,構(gòu)建了如圖8 所示的行為樹。其中行為樹的葉子節(jié)點為已完成真實環(huán)境部署的強化學(xué)習(xí)子策略,在執(zhí)行前需要判斷是否滿足條件,如果滿足就執(zhí)行子策略,如果沒有滿足條件,直接結(jié)束當前回合。

    圖8 基于行為樹的子任務(wù)規(guī)劃

    為與傳統(tǒng)強化學(xué)習(xí)算法進行對比,根據(jù)所構(gòu)建的行為樹,分別采用傳統(tǒng)SAC 算法和本文所提出的GAIL+SAC 算法,進行了真實環(huán)境中的機械臂復(fù)雜操作技能對比實驗,結(jié)果分別如圖9 和圖10 所示,在25 次測試實驗中,傳統(tǒng)SAC 算法的成功率為28%,GAIL+SAC 在真實環(huán)境中成功率為76%。由于傳統(tǒng)SAC 算法在仿真環(huán)境中放置物體子策略的成功率較低,導(dǎo)致整體任務(wù)的成功率偏低。而本文提出的算法在仿真環(huán)境中成功率較高,但由于并不能完全消除仿真環(huán)境和真實環(huán)境的差距,在真實環(huán)境中的成功率有所降低。

    圖9 真實環(huán)境中基于SAC 的機械臂復(fù)雜操作技能再現(xiàn)

    圖10 真實環(huán)境中基于GAIL+SAC 的機械臂復(fù)雜操作技能再現(xiàn)

    以上實驗結(jié)果表明,基于逆強化學(xué)習(xí)和行為樹的復(fù)雜操作技能學(xué)習(xí)方法成功完成了從仿真環(huán)境到真實環(huán)境的部署,并且在真實場景中的成功率高于傳統(tǒng)強化學(xué)習(xí)算法。

    3 結(jié) 語

    本文提出一種基于逆強化學(xué)習(xí)和行為樹的機械臂復(fù)雜操作技能學(xué)習(xí)方法,用于解決傳統(tǒng)分層強化學(xué)習(xí)方法底層子任務(wù)樣本效率低、獎勵稀疏,上層學(xué)習(xí)時間過長,以及策略在真實環(huán)境中部署困難的問題。該方法底層采用逆強化算法學(xué)習(xí)子策略,保證了子任務(wù)的學(xué)習(xí)效率;上層通過行為樹來規(guī)劃子任務(wù),構(gòu)建整體策略。實驗結(jié)果表明,該方法成功學(xué)習(xí)到了復(fù)雜操作任務(wù),大大減少了訓(xùn)練的時間,并在性能上優(yōu)于其他算法。

    猜你喜歡
    操作技能機械環(huán)境
    機械裝配中鉗工的操作技能分析
    長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
    一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
    關(guān)于學(xué)生實驗操作技能省級測試的思考——以高中生物學(xué)為例
    調(diào)試機械臂
    當代工人(2020年8期)2020-05-25 09:07:38
    孕期遠離容易致畸的環(huán)境
    環(huán)境
    簡單機械
    機械班長
    按摩機械臂
    丝袜脚勾引网站| 一级爰片在线观看| 一级毛片我不卡| 亚洲国产欧美在线一区| 男的添女的下面高潮视频| 欧美潮喷喷水| a级毛色黄片| 卡戴珊不雅视频在线播放| 国产精品一及| 麻豆久久精品国产亚洲av| 丝瓜视频免费看黄片| 18禁在线无遮挡免费观看视频| 精品一区二区免费观看| 午夜福利在线观看免费完整高清在| 国产在线男女| 一级av片app| 欧美xxxx黑人xx丫x性爽| 18禁裸乳无遮挡动漫免费视频 | 综合色av麻豆| 久久久精品94久久精品| 最新中文字幕久久久久| 91久久精品电影网| 日日摸夜夜添夜夜爱| 免费电影在线观看免费观看| 国产精品偷伦视频观看了| 免费观看av网站的网址| 91精品一卡2卡3卡4卡| 久热这里只有精品99| 麻豆成人午夜福利视频| 嫩草影院新地址| 亚州av有码| 国产一区二区三区av在线| 亚洲成色77777| 国产一区有黄有色的免费视频| 国产亚洲一区二区精品| 午夜老司机福利剧场| 亚洲av电影在线观看一区二区三区 | 日本wwww免费看| 国产精品一区二区三区四区免费观看| 五月天丁香电影| 欧美日韩国产mv在线观看视频 | 国模一区二区三区四区视频| eeuss影院久久| 制服丝袜香蕉在线| 最近中文字幕高清免费大全6| 日韩av免费高清视频| 日本色播在线视频| 永久网站在线| 美女脱内裤让男人舔精品视频| 日本-黄色视频高清免费观看| 婷婷色麻豆天堂久久| 国内少妇人妻偷人精品xxx网站| 九九在线视频观看精品| 最近中文字幕2019免费版| 午夜福利网站1000一区二区三区| 久久精品人妻少妇| 亚洲自拍偷在线| 亚洲精品乱久久久久久| av在线播放精品| 国产人妻一区二区三区在| 久久久久九九精品影院| 国产成人福利小说| 免费观看a级毛片全部| 夫妻性生交免费视频一级片| 美女脱内裤让男人舔精品视频| 日韩在线高清观看一区二区三区| av在线app专区| 在线 av 中文字幕| 久久久精品欧美日韩精品| 哪个播放器可以免费观看大片| 欧美区成人在线视频| 欧美潮喷喷水| 直男gayav资源| 国产乱来视频区| 在现免费观看毛片| 欧美日韩视频高清一区二区三区二| 免费播放大片免费观看视频在线观看| 中文天堂在线官网| 黄色一级大片看看| 国产成人精品福利久久| 小蜜桃在线观看免费完整版高清| 如何舔出高潮| 国产人妻一区二区三区在| av卡一久久| 国产精品女同一区二区软件| 成人特级av手机在线观看| 亚洲国产av新网站| 国产亚洲5aaaaa淫片| 国产午夜福利久久久久久| 欧美激情国产日韩精品一区| 国产成人精品福利久久| 久久久精品免费免费高清| 久久久久久久久久久丰满| 建设人人有责人人尽责人人享有的 | 欧美成人午夜免费资源| 97精品久久久久久久久久精品| 国产成人a∨麻豆精品| 男女边吃奶边做爰视频| 一级毛片电影观看| 国国产精品蜜臀av免费| 男女下面进入的视频免费午夜| 日日啪夜夜撸| 天堂中文最新版在线下载 | 精品一区在线观看国产| 亚洲综合色惰| av播播在线观看一区| 麻豆久久精品国产亚洲av| 亚洲经典国产精华液单| 三级国产精品欧美在线观看| 亚洲经典国产精华液单| 久久久久久久久久成人| 联通29元200g的流量卡| 国产在线一区二区三区精| 午夜精品一区二区三区免费看| 成人亚洲精品av一区二区| 亚洲,一卡二卡三卡| 高清日韩中文字幕在线| av免费观看日本| 激情五月婷婷亚洲| 亚洲av免费在线观看| 免费观看a级毛片全部| 久久久午夜欧美精品| 亚洲精品aⅴ在线观看| 亚洲av日韩在线播放| 亚洲av欧美aⅴ国产| 国产精品福利在线免费观看| 我的女老师完整版在线观看| 久久影院123| 99久久中文字幕三级久久日本| 国产 一区精品| av在线观看视频网站免费| 在线观看人妻少妇| 国产成人a区在线观看| 国产69精品久久久久777片| 国产精品熟女久久久久浪| 一区二区三区四区激情视频| 久久人人爽av亚洲精品天堂 | 日韩制服骚丝袜av| 国产一区二区在线观看日韩| 久久99蜜桃精品久久| 国产黄色免费在线视频| 在线观看三级黄色| 丰满人妻一区二区三区视频av| av国产免费在线观看| 日日啪夜夜撸| 日韩欧美 国产精品| 亚洲电影在线观看av| 99精国产麻豆久久婷婷| 亚洲色图av天堂| www.av在线官网国产| 欧美+日韩+精品| 80岁老熟妇乱子伦牲交| 麻豆成人av视频| 国产淫语在线视频| 国产成人a区在线观看| videos熟女内射| 日日啪夜夜爽| 亚洲人成网站在线观看播放| 夜夜爽夜夜爽视频| 国产综合懂色| 国产 一区 欧美 日韩| 国产乱人偷精品视频| 精品人妻一区二区三区麻豆| 亚洲av不卡在线观看| 免费看av在线观看网站| 成年免费大片在线观看| 亚洲精品日本国产第一区| 能在线免费看毛片的网站| 在线免费观看不下载黄p国产| 成人无遮挡网站| 69av精品久久久久久| 日日摸夜夜添夜夜爱| 狂野欧美激情性xxxx在线观看| 色婷婷久久久亚洲欧美| 欧美日韩国产mv在线观看视频 | 欧美性感艳星| 国产精品女同一区二区软件| 亚洲精品久久午夜乱码| 一级二级三级毛片免费看| 久久人人爽av亚洲精品天堂 | 亚洲最大成人av| 中文精品一卡2卡3卡4更新| 午夜福利视频精品| 亚洲精品影视一区二区三区av| 亚洲高清免费不卡视频| 大片免费播放器 马上看| 国精品久久久久久国模美| 亚洲欧美清纯卡通| 精品一区二区三区视频在线| 亚洲综合精品二区| 亚洲四区av| 国产人妻一区二区三区在| 黄色视频在线播放观看不卡| 国产成人a区在线观看| 精品亚洲乱码少妇综合久久| 在线亚洲精品国产二区图片欧美 | av线在线观看网站| 国产亚洲av片在线观看秒播厂| 国产日韩欧美亚洲二区| 老师上课跳d突然被开到最大视频| av在线app专区| 一级爰片在线观看| 免费av不卡在线播放| 十八禁网站网址无遮挡 | 国产精品爽爽va在线观看网站| 欧美性猛交╳xxx乱大交人| 日韩亚洲欧美综合| 丝袜脚勾引网站| a级毛色黄片| 国产精品蜜桃在线观看| 亚洲久久久久久中文字幕| av在线app专区| 白带黄色成豆腐渣| 夜夜看夜夜爽夜夜摸| 成人毛片a级毛片在线播放| 国产极品天堂在线| 精品人妻偷拍中文字幕| 国产精品偷伦视频观看了| 亚洲av免费在线观看| 2018国产大陆天天弄谢| 国产精品爽爽va在线观看网站| 欧美性猛交╳xxx乱大交人| 久久97久久精品| 男人爽女人下面视频在线观看| 极品教师在线视频| 亚洲美女搞黄在线观看| av国产免费在线观看| 国产精品成人在线| eeuss影院久久| 色播亚洲综合网| 最近手机中文字幕大全| 久久久久网色| 韩国av在线不卡| 国产91av在线免费观看| 又黄又爽又刺激的免费视频.| 一级毛片黄色毛片免费观看视频| 午夜福利在线观看免费完整高清在| 亚洲电影在线观看av| 亚洲精品日韩在线中文字幕| 亚洲真实伦在线观看| 国产 一区精品| 国产av国产精品国产| 午夜福利视频精品| 春色校园在线视频观看| 水蜜桃什么品种好| 欧美 日韩 精品 国产| 最近最新中文字幕大全电影3| 人妻夜夜爽99麻豆av| av在线观看视频网站免费| 国产 一区精品| 九九久久精品国产亚洲av麻豆| 精品久久久久久久久av| 国产黄片视频在线免费观看| 特大巨黑吊av在线直播| 亚洲av在线观看美女高潮| av专区在线播放| 久久久久国产网址| 日本黄大片高清| 日日啪夜夜撸| 亚洲av电影在线观看一区二区三区 | 高清欧美精品videossex| 日韩 亚洲 欧美在线| 特大巨黑吊av在线直播| 国产成人a区在线观看| av在线蜜桃| 少妇被粗大猛烈的视频| 少妇的逼好多水| 一区二区三区四区激情视频| 在现免费观看毛片| 成人二区视频| 男女无遮挡免费网站观看| 欧美日韩综合久久久久久| 亚洲av中文av极速乱| 成人黄色视频免费在线看| 中文精品一卡2卡3卡4更新| 亚洲精品久久午夜乱码| 五月天丁香电影| 又爽又黄a免费视频| 成人欧美大片| 成人亚洲精品一区在线观看 | 国产成人精品一,二区| 国产伦在线观看视频一区| 国产精品一区二区性色av| 日本色播在线视频| 少妇的逼好多水| 性插视频无遮挡在线免费观看| 国产中年淑女户外野战色| 99久久人妻综合| 日本-黄色视频高清免费观看| 午夜日本视频在线| 国内揄拍国产精品人妻在线| 亚洲精品色激情综合| 久久99热这里只频精品6学生| 中文乱码字字幕精品一区二区三区| 久久久欧美国产精品| 亚洲成色77777| 成人毛片a级毛片在线播放| 国内揄拍国产精品人妻在线| a级毛片免费高清观看在线播放| 午夜老司机福利剧场| 欧美成人午夜免费资源| 免费av观看视频| 亚洲成人av在线免费| 蜜臀久久99精品久久宅男| 国产成人免费观看mmmm| 欧美一区二区亚洲| 男人爽女人下面视频在线观看| 国产淫语在线视频| 人妻制服诱惑在线中文字幕| 91久久精品电影网| 亚洲综合色惰| 久久97久久精品| 下体分泌物呈黄色| 精品久久久久久久人妻蜜臀av| 国产毛片a区久久久久| 国产女主播在线喷水免费视频网站| 日本wwww免费看| 亚洲国产欧美在线一区| 一级二级三级毛片免费看| 又爽又黄无遮挡网站| 人妻 亚洲 视频| 插逼视频在线观看| 日韩伦理黄色片| 偷拍熟女少妇极品色| 熟女人妻精品中文字幕| 精品亚洲乱码少妇综合久久| 麻豆久久精品国产亚洲av| 国产精品无大码| 国产国拍精品亚洲av在线观看| 亚洲,一卡二卡三卡| 一级黄片播放器| 国产成人精品一,二区| h日本视频在线播放| 国产一区二区三区av在线| 夫妻午夜视频| 日本一二三区视频观看| 久久精品国产a三级三级三级| 麻豆成人av视频| 亚洲精品日韩在线中文字幕| 综合色丁香网| 日韩av免费高清视频| 国产免费一区二区三区四区乱码| 免费看日本二区| 麻豆成人av视频| 午夜福利在线在线| 欧美国产精品一级二级三级 | 交换朋友夫妻互换小说| 中国三级夫妇交换| 日日摸夜夜添夜夜爱| 亚洲精品中文字幕在线视频 | 免费高清在线观看视频在线观看| 久久人人爽人人爽人人片va| 久久人人爽av亚洲精品天堂 | 麻豆成人午夜福利视频| 成人欧美大片| 亚洲精品乱码久久久久久按摩| 国产黄a三级三级三级人| 久久6这里有精品| 久久精品久久久久久久性| 日韩在线高清观看一区二区三区| 国产爱豆传媒在线观看| 久久人人爽av亚洲精品天堂 | 久久精品国产亚洲网站| 亚洲三级黄色毛片| 国产成人精品久久久久久| 亚洲av男天堂| 97热精品久久久久久| 日韩欧美一区视频在线观看 | 久久久色成人| 久久精品国产a三级三级三级| h日本视频在线播放| 精品国产三级普通话版| 少妇猛男粗大的猛烈进出视频 | 国产伦精品一区二区三区视频9| 91在线精品国自产拍蜜月| 如何舔出高潮| 久久久久国产网址| 少妇被粗大猛烈的视频| 免费观看无遮挡的男女| tube8黄色片| 国产女主播在线喷水免费视频网站| 又粗又硬又长又爽又黄的视频| 在现免费观看毛片| 精品一区二区三卡| 国产免费一级a男人的天堂| 亚洲精品色激情综合| 国产精品熟女久久久久浪| 成人亚洲精品一区在线观看 | 国产探花极品一区二区| 精华霜和精华液先用哪个| 免费观看无遮挡的男女| 免费黄网站久久成人精品| 黄色日韩在线| 久久综合国产亚洲精品| 国产精品蜜桃在线观看| 亚洲色图av天堂| 免费av毛片视频| 免费观看的影片在线观看| 成人美女网站在线观看视频| 1000部很黄的大片| 久久久久久国产a免费观看| av黄色大香蕉| 插逼视频在线观看| 中文精品一卡2卡3卡4更新| 亚洲国产色片| 赤兔流量卡办理| 国产精品福利在线免费观看| 啦啦啦中文免费视频观看日本| 99久久人妻综合| 久久久久久九九精品二区国产| 夫妻午夜视频| 三级国产精品片| 亚洲欧美日韩东京热| 亚洲国产av新网站| 毛片女人毛片| 中文字幕久久专区| 日韩伦理黄色片| 2021少妇久久久久久久久久久| 黄色欧美视频在线观看| 国内少妇人妻偷人精品xxx网站| 综合色av麻豆| 国产一级毛片在线| 一个人看的www免费观看视频| 国产精品国产三级国产av玫瑰| 亚洲av不卡在线观看| 国产熟女欧美一区二区| 高清av免费在线| a级毛色黄片| 国产精品.久久久| 一本色道久久久久久精品综合| 国产人妻一区二区三区在| 欧美老熟妇乱子伦牲交| 美女国产视频在线观看| 国产美女午夜福利| 一个人看视频在线观看www免费| 九九久久精品国产亚洲av麻豆| 高清欧美精品videossex| 波多野结衣巨乳人妻| 深夜a级毛片| videossex国产| 91精品一卡2卡3卡4卡| 亚洲综合色惰| 男人爽女人下面视频在线观看| 亚洲精品一二三| 亚洲欧洲国产日韩| 国内精品宾馆在线| 亚洲精华国产精华液的使用体验| 欧美bdsm另类| 五月天丁香电影| 国产毛片a区久久久久| 国产一区亚洲一区在线观看| 韩国av在线不卡| 国产精品一区二区在线观看99| 久久人人爽人人爽人人片va| 天堂俺去俺来也www色官网| 久久久久久久久久久免费av| 在线观看三级黄色| 免费黄频网站在线观看国产| 亚洲欧美清纯卡通| 伊人久久国产一区二区| 全区人妻精品视频| 97在线视频观看| 国产探花在线观看一区二区| 一区二区三区精品91| 欧美成人a在线观看| a级一级毛片免费在线观看| 日本色播在线视频| 2021少妇久久久久久久久久久| 亚洲精品一二三| 九九久久精品国产亚洲av麻豆| 天堂俺去俺来也www色官网| 亚洲电影在线观看av| 99九九线精品视频在线观看视频| 亚洲av在线观看美女高潮| 91午夜精品亚洲一区二区三区| 一二三四中文在线观看免费高清| 午夜精品一区二区三区免费看| 国产精品偷伦视频观看了| 性色avwww在线观看| 最近中文字幕2019免费版| 听说在线观看完整版免费高清| 精品亚洲乱码少妇综合久久| 日韩一本色道免费dvd| 91精品伊人久久大香线蕉| 秋霞伦理黄片| 精品国产三级普通话版| 乱系列少妇在线播放| 国产白丝娇喘喷水9色精品| 啦啦啦中文免费视频观看日本| 国产淫语在线视频| 久久精品久久久久久噜噜老黄| 久久久久网色| 大香蕉久久网| 欧美另类一区| 国产日韩欧美亚洲二区| 亚洲欧美精品专区久久| 2021少妇久久久久久久久久久| 精品熟女少妇av免费看| av在线播放精品| 午夜免费观看性视频| 久久99热这里只有精品18| 麻豆精品久久久久久蜜桃| 亚洲第一区二区三区不卡| av国产精品久久久久影院| 青春草视频在线免费观看| 亚洲欧洲国产日韩| 久热久热在线精品观看| 久久99精品国语久久久| 免费观看的影片在线观看| 亚洲欧美日韩东京热| 夫妻午夜视频| 国产亚洲av片在线观看秒播厂| 97人妻精品一区二区三区麻豆| 人妻少妇偷人精品九色| 在线a可以看的网站| 色视频在线一区二区三区| 人妻制服诱惑在线中文字幕| a级毛片免费高清观看在线播放| 国产大屁股一区二区在线视频| 哪个播放器可以免费观看大片| 国产精品99久久99久久久不卡 | 亚洲精品成人av观看孕妇| 在线天堂最新版资源| 久久97久久精品| 亚洲精品一二三| 久久人人爽人人爽人人片va| 国产在线一区二区三区精| 国产真实伦视频高清在线观看| 国产精品久久久久久精品电影小说 | 亚洲精品456在线播放app| 日韩人妻高清精品专区| 欧美成人一区二区免费高清观看| 99re6热这里在线精品视频| 久久久久久国产a免费观看| 中文字幕人妻熟人妻熟丝袜美| 91aial.com中文字幕在线观看| 亚洲精品第二区| 一区二区三区精品91| 亚洲成人久久爱视频| 国产熟女欧美一区二区| 国产免费视频播放在线视频| 人人妻人人爽人人添夜夜欢视频 | 精品一区二区三区视频在线| 欧美三级亚洲精品| 亚洲人与动物交配视频| 亚洲欧美精品自产自拍| 亚洲国产最新在线播放| 伊人久久精品亚洲午夜| 成人特级av手机在线观看| 成人综合一区亚洲| 又大又黄又爽视频免费| 一级av片app| 自拍偷自拍亚洲精品老妇| 亚洲人与动物交配视频| 亚洲精品,欧美精品| 三级国产精品片| 男人舔奶头视频| 国产精品嫩草影院av在线观看| 最近中文字幕2019免费版| 91精品伊人久久大香线蕉| 日韩国内少妇激情av| 日本猛色少妇xxxxx猛交久久| 国产 一区 欧美 日韩| 国产成人91sexporn| 观看免费一级毛片| 亚洲精品色激情综合| 亚洲天堂国产精品一区在线| 99久久精品热视频| 蜜桃久久精品国产亚洲av| 黄片wwwwww| 女的被弄到高潮叫床怎么办| 国产一区二区三区av在线| 成年免费大片在线观看| 蜜臀久久99精品久久宅男| 少妇人妻精品综合一区二区| 2022亚洲国产成人精品| 久久99热6这里只有精品| freevideosex欧美| 秋霞在线观看毛片| 亚洲精品日韩在线中文字幕| 老司机影院成人| 日本黄大片高清| 日本欧美国产在线视频| 人体艺术视频欧美日本| 最后的刺客免费高清国语| 成人亚洲欧美一区二区av| 亚洲精品日本国产第一区| 国产永久视频网站| 最近2019中文字幕mv第一页| 亚洲精品亚洲一区二区| 国产黄色视频一区二区在线观看| 亚洲电影在线观看av| 大香蕉97超碰在线| 国产午夜福利久久久久久| 国产精品嫩草影院av在线观看| 亚洲欧美精品自产自拍| 精品一区二区三区视频在线| 汤姆久久久久久久影院中文字幕| 又爽又黄无遮挡网站| 精华霜和精华液先用哪个| 成人亚洲精品av一区二区| 又大又黄又爽视频免费| 别揉我奶头 嗯啊视频| 国产成人91sexporn| 观看免费一级毛片| 国产欧美另类精品又又久久亚洲欧美| 精品久久久噜噜| 九色成人免费人妻av| 国产在线男女| 欧美zozozo另类| 成人亚洲欧美一区二区av| 男插女下体视频免费在线播放| 国产免费福利视频在线观看| 亚洲国产色片| 午夜福利在线在线|