• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)Q學(xué)習(xí)的機(jī)械臂實(shí)時(shí)障礙規(guī)避方法

    2022-12-22 06:58:10吳戴燕劉世林
    關(guān)鍵詞:機(jī)械動(dòng)作

    吳戴燕,劉世林

    (1.安徽六安技師學(xué)院 機(jī)電工程系,安徽 六安 237001;2.安徽工程大學(xué) 電子工程學(xué)院,安徽 蕪湖 241000)

    0 引言

    當(dāng)前,機(jī)器人被廣泛用于日常生活和工業(yè)任務(wù)中,以滿足極端環(huán)境下的復(fù)雜需求,例如裝配、交通、手術(shù)、太空探索等[1]。為實(shí)現(xiàn)人與機(jī)器人的緊密協(xié)作,必須采取以安全為核心的控制策略,實(shí)現(xiàn)人與機(jī)器人的安全共存[2]。

    從目前的研究成果看,機(jī)械臂障礙物規(guī)避的規(guī)劃方法包括機(jī)械臂的柔性機(jī)械設(shè)計(jì)、基于外感受傳感器的碰撞檢測(cè)和反應(yīng)策略等[3-4]。如熊志金等[5]提出采用徑向基(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)算法逼近滑??刂破鬏敵稣`差,以規(guī)避障礙物并提高控制系統(tǒng)輸出和運(yùn)動(dòng)穩(wěn)定性。此外,研究人員還提出了很多基于勢(shì)場(chǎng)方法的實(shí)時(shí)規(guī)劃算法[6-7],此類方法將虛擬排斥場(chǎng)與障礙物相關(guān)聯(lián)以實(shí)現(xiàn)規(guī)避,并將引力場(chǎng)與目標(biāo)相關(guān)聯(lián),以抵達(dá)目標(biāo)。COLOMBO等[8]提出了基于參數(shù)化無撞軌跡的實(shí)時(shí)自適應(yīng)運(yùn)動(dòng)規(guī)劃算法,并根據(jù)機(jī)器人傳感器發(fā)現(xiàn)的環(huán)境變化對(duì)參數(shù)進(jìn)行更新。于思淼等[9]提出了虛擬彈簧概念以生成無碰撞運(yùn)動(dòng)軌跡,并結(jié)合了人類行為模式預(yù)測(cè)。

    深度學(xué)習(xí)提供了操縱、處理和分析數(shù)據(jù)的新方式,在一些情況下甚至取得了優(yōu)于人類專家的表現(xiàn)。增強(qiáng)學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支,其嘗試通過環(huán)境交互得到最優(yōu)行為策略。將深度學(xué)習(xí)與增強(qiáng)學(xué)習(xí)相結(jié)合,有助于解決機(jī)械臂障礙物規(guī)避問題中因獎(jiǎng)勵(lì)信號(hào)的稀疏性造成的數(shù)據(jù)維度和可擴(kuò)展性問題,提高采樣效率和通用性[10]。

    對(duì)于機(jī)器人系統(tǒng),基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)進(jìn)行Q函數(shù)逼近的無模型方法被證明是有用的[11-12]。因此,本文利用深度增強(qiáng)學(xué)習(xí)(Deep Reinforcement Learning,DRL)技術(shù)處理碰撞規(guī)避問題,并在場(chǎng)景中考慮了存在入侵機(jī)械臂工作空間的障礙物。與大部分碰撞規(guī)避方法不同,文中所提方法是無模型方法,其顯著降低了設(shè)計(jì)和實(shí)施的工作量。此外,此方法克服了離線軌跡生成以及在線更新執(zhí)行過程中產(chǎn)生的相關(guān)問題。

    1 機(jī)械臂與深度增強(qiáng)學(xué)習(xí)

    多關(guān)節(jié)機(jī)器人是當(dāng)前比較常用的機(jī)器人類型,也被稱為機(jī)械臂。機(jī)械臂可表述為通過電機(jī)驅(qū)動(dòng)關(guān)節(jié)移動(dòng)的一系列連桿。其每個(gè)關(guān)節(jié)表示一個(gè)軸,為相鄰連桿之間受控的相對(duì)移動(dòng)提供額外的自由度(Degree of Freedom,DoF)。通常自動(dòng)度數(shù)等于關(guān)節(jié)數(shù)量,末端受動(dòng)器為附著在結(jié)構(gòu)末端的輔具,以完成實(shí)際任務(wù)。根據(jù)不同應(yīng)用,末端受動(dòng)器可被設(shè)計(jì)為改錐、電刷等其他機(jī)械設(shè)備。連桿為連接基座、關(guān)節(jié)或末端執(zhí)行器的剛性或類剛性組件,并負(fù)責(zé)承載結(jié)構(gòu)負(fù)載。

    增強(qiáng)學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支,通過動(dòng)態(tài)自動(dòng)試錯(cuò)得到最大化收益的最優(yōu)行為策略,其通用模型如圖1所示,在學(xué)習(xí)中根據(jù)狀態(tài)變化進(jìn)行懲罰或獎(jiǎng)勵(lì)。

    圖1 增強(qiáng)學(xué)習(xí)模型

    當(dāng)智能體處于某個(gè)狀態(tài)中時(shí),它可根據(jù)當(dāng)前策略選擇行動(dòng),并從環(huán)境中接收?qǐng)?zhí)行該動(dòng)作的獎(jiǎng)勵(lì)。通過學(xué)習(xí)獎(jiǎng)勵(lì),智能體轉(zhuǎn)移到新狀態(tài),選擇新的行動(dòng),并對(duì)該過程反復(fù)迭代。在機(jī)器人控制領(lǐng)域,通常無法得到在所有情況下都正確且有代表性的期望行為樣本,因此獎(jiǎng)勵(lì)通常是較弱的稀疏信號(hào)。在增強(qiáng)學(xué)習(xí)中,智能體僅根據(jù)稀疏時(shí)延獎(jiǎng)勵(lì),學(xué)習(xí)如何在環(huán)境中行動(dòng)。

    傳統(tǒng)的增強(qiáng)學(xué)習(xí)受限于簡(jiǎn)單狀態(tài)表征,DRL使得智能體可以利用神經(jīng)網(wǎng)絡(luò)對(duì)策略進(jìn)行表征,從高維非結(jié)構(gòu)化輸入數(shù)據(jù)中制定決策。在機(jī)械臂控制中,DRL的目的是訓(xùn)練深度策略神經(jīng)網(wǎng)絡(luò),以檢測(cè)能夠完成任務(wù)的最優(yōu)指令序列。使用DRL的機(jī)械臂控制流程圖如圖2所示,其中,輸入為當(dāng)前狀態(tài),包括機(jī)械臂關(guān)節(jié)角度、末端受動(dòng)器位置及其推衍信息,例如速度和加速度等;策略網(wǎng)絡(luò)的輸出為可實(shí)施到每個(gè)執(zhí)行器的控制指令代表的行動(dòng),例如轉(zhuǎn)向或速度命令。當(dāng)機(jī)械臂完成任務(wù)時(shí),生成正向獎(jiǎng)勵(lì)。利用這些延遲弱信號(hào),尋找機(jī)械臂操控的最優(yōu)控制策略。

    圖2 使用DRL的機(jī)械臂控制流程圖

    2 機(jī)械臂障礙規(guī)避方法

    2.1 智能體和環(huán)境

    在每個(gè)時(shí)間步t,將智能體和環(huán)境建模為st∈S,其中,S為狀態(tài)空間,包含系統(tǒng)所有相關(guān)信息。從給定狀態(tài)出發(fā),智能體執(zhí)行動(dòng)作at∈A,A表示動(dòng)作空間。每個(gè)動(dòng)作會(huì)擾動(dòng)環(huán)境,改變其狀態(tài)。智能體在進(jìn)入下一個(gè)時(shí)間步t+1之前,接收獎(jiǎng)勵(lì)r∈R,R為獎(jiǎng)勵(lì)空間,然后根據(jù)動(dòng)力系統(tǒng)ρ(st+1|st,at)移動(dòng)至新狀態(tài)st∈S。S和A可以是連續(xù)集,也可以是離散集。從狀態(tài)到動(dòng)作的映射取決于策略π,策略可以是確定性的,也可以是概率性的。對(duì)于給定的控制任務(wù),將學(xué)習(xí)過程分為多個(gè)訓(xùn)練輪,其中,智能體與環(huán)境交互,以嘗試完成任務(wù)目標(biāo),或者在重置前執(zhí)行固定數(shù)量的時(shí)間步。

    2.2 獎(jiǎng)勵(lì)和策略

    獎(jiǎng)勵(lì)rt為標(biāo)量反饋信號(hào),表示智能體在時(shí)間步t的效果評(píng)估。智能體的目標(biāo)是最大化其接收到的長(zhǎng)期(預(yù)期)累積獎(jiǎng)勵(lì)。對(duì)于有效時(shí)間范圍內(nèi)的臨時(shí)任務(wù)T,預(yù)期累積獎(jiǎng)勵(lì)Rt定義為

    式(1)中,0≤γ≤1為折扣率,以使近期獎(jiǎng)勵(lì)的優(yōu)先級(jí)高于遠(yuǎn)期獎(jiǎng)勵(lì)。系統(tǒng)模型使用狀態(tài)和動(dòng)作集合以及環(huán)境轉(zhuǎn)變概率矩陣定義的馬爾可夫決策過程(Markov Decision Process,MDP)。給定當(dāng)前狀態(tài)s、行動(dòng)a和下一個(gè)狀態(tài)s′,下一次獎(jiǎng)勵(lì)的預(yù)期值定義為

    式(2)中,策略π(a|s)表示智能體在狀態(tài)s時(shí)執(zhí)行動(dòng)作a的概率。從特定狀態(tài)開始,遵循策略π的預(yù)期累積獎(jiǎng)勵(lì)被稱為價(jià)值函數(shù)。

    2.3 問題定義

    在訓(xùn)練過程中,需要測(cè)量關(guān)節(jié)位置q,關(guān)節(jié)速度,目標(biāo)點(diǎn)位置pt,末端受動(dòng)器位置pe,障礙物位置po,以及障礙物速度o。假定末端受動(dòng)器和目標(biāo)的位置是已知的,并能夠正確估計(jì)出障礙物的位置。由此,將狀態(tài)空間S定義為

    動(dòng)作空間A定義為

    獎(jiǎng)勵(lì)函數(shù)是通過三個(gè)因素的加權(quán)和所定義的標(biāo)量函數(shù)。這三個(gè)因素分別為末端受動(dòng)器和目標(biāo)點(diǎn)之間的距離、動(dòng)作的幅度以及障礙物與機(jī)械臂的距離,定義為

    本文使用Huber損失函數(shù)[13]計(jì)算末端受動(dòng)器和目標(biāo)點(diǎn)之間的距離RT,定義為

    式(6)中,d為機(jī)械臂尖與目標(biāo)之間的歐氏距離,δ為平滑度參數(shù)。

    機(jī)械臂執(zhí)行動(dòng)作的幅度RA計(jì)算為動(dòng)作向量a的范數(shù)的平方,即

    動(dòng)作幅度對(duì)獎(jiǎng)勵(lì)起負(fù)面作用,因此應(yīng)鼓勵(lì)較小幅度的動(dòng)作。機(jī)械臂和障礙物之間的距離RO為

    式(8)中,dref為常數(shù),以使得0

    2.4 利用與探索的權(quán)衡

    MDP要求環(huán)境轉(zhuǎn)變概率模型是完全可觀察的,但在機(jī)器人系統(tǒng)中,該信息常會(huì)不可用,因此需要一個(gè)不同的學(xué)習(xí)模型。Q學(xué)習(xí)[14]是離策略算法,直接逼近最優(yōu)動(dòng)作值函數(shù)Q*,且不受當(dāng)前遵循策略的影響。在選擇動(dòng)作時(shí),智能體可通過隨機(jī)選擇一個(gè)動(dòng)作并忽略以往知識(shí),來執(zhí)行概率為ε的環(huán)境探索。

    在包含大量狀態(tài)的連續(xù)動(dòng)作問題中,Q學(xué)習(xí)未必可行。Q學(xué)習(xí)的優(yōu)點(diǎn)是不需要環(huán)境的先驗(yàn)?zāi)P图纯勺灾鲗W(xué)習(xí),但對(duì)最優(yōu)解的收斂速度較慢,不能滿足實(shí)時(shí)應(yīng)用需求。在這種情況下,可利用動(dòng)作值函數(shù)(Q函數(shù))的參數(shù)近似器來解決該問題[15]。參數(shù)近似器可通過深度神經(jīng)網(wǎng)絡(luò)(DNN)構(gòu)建。DNN是參數(shù)函數(shù),可對(duì)復(fù)雜的非線性關(guān)系建模??紤]參數(shù)化的動(dòng)作值函數(shù)(st,at|θQ)為

    式(10)中,yt為目標(biāo),即

    式(11)中,θQ為行動(dòng)價(jià)值函數(shù)的參數(shù),β為隨機(jī)行為策略,以使得at=β(st),ρβ為策略β下的狀態(tài)訪問頻率。

    2.5 改進(jìn)Q學(xué)習(xí)算法

    歸一化優(yōu)勢(shì)函數(shù)支持在連續(xù)動(dòng)作空間中使用Q學(xué)習(xí),其理念是設(shè)計(jì)Q函數(shù),以使得可以在每次更新過程中簡(jiǎn)單計(jì)算出最大的,即使用DNN分別輸出和,優(yōu)勢(shì)函數(shù)被參數(shù)化為4次函數(shù),如下:

    式(12)中,P(x|θP)為通過L(s|θ)L(s|θ)T參數(shù)化的正定方陣,L為下三角矩陣,其元素來自神經(jīng)網(wǎng)絡(luò)的線性激活函數(shù)。Q函數(shù)在動(dòng)作中是4次函數(shù),通過計(jì)算最大值可得:

    由此能夠最大化Q(s,a)的動(dòng)作a可表示為

    基于歸一化優(yōu)勢(shì)函數(shù)的連續(xù)Q學(xué)習(xí)如算法1所示,其中,TN和PN網(wǎng)絡(luò)分別表示目標(biāo)網(wǎng)絡(luò)和預(yù)定義網(wǎng)絡(luò),以使用當(dāng)前預(yù)測(cè)參數(shù)和過去目標(biāo)參數(shù)來更新當(dāng)前目標(biāo)參數(shù)。噪聲元素D為隨機(jī)過程,將其添加到動(dòng)作中以加快探索。整個(gè)過程通過重放緩沖RB采集訓(xùn)練過程中生成的所有樣本i={st,at,rt,st+1}。小批MB中包含了從RB隨機(jī)采集的固定數(shù)量樣本,可利用單位方差和零均值進(jìn)行歸一化。最后,系數(shù)γ、η和τ分別為折扣因子、學(xué)習(xí)因子和更新因子。

    算法1:提出的改進(jìn)Q學(xué)習(xí)算法,如下:

    3 實(shí)驗(yàn)與分析

    為了驗(yàn)證所提方案的性能,使用模擬器V-REF模擬用于訓(xùn)練過程的物理環(huán)境。使用TensorFlow實(shí)施模擬器和歸一化優(yōu)勢(shì)函數(shù)(Normalized Advantage Functions,NAF)算法,并將其連接到V-REP的遠(yuǎn)程API。使用的 PC 配置為 i7 4790 K 4 GHz,16 GB RAM,NVIDIA GTX 1080 GPU,4 GB DRAM。

    3.1 參數(shù)設(shè)置

    超參數(shù)指的是為了調(diào)整學(xué)習(xí)環(huán)境必須要設(shè)置的所有元素。本文訓(xùn)練過程中探索數(shù)值設(shè)定如下:噪聲類型D表示在每個(gè)時(shí)間步向動(dòng)作添加隨機(jī)過程,以保持對(duì)環(huán)境的探索,實(shí)驗(yàn)使用Ornstein-Uhlenbeck噪聲,噪聲比例設(shè)為1,噪聲衰減因子表示噪聲在訓(xùn)練過程中的衰減速度,設(shè)為0.01。NAF學(xué)習(xí)算法中,更新因子τ設(shè)為0.001,折扣因子γ設(shè)為0.99,學(xué)習(xí)率η設(shè)為0.001。獎(jiǎng)勵(lì)函數(shù)相關(guān)參數(shù)中,c1、c2、c3分別為機(jī)械臂到目標(biāo)的距離、動(dòng)作幅度、到障礙物的距離的權(quán)重,設(shè)c1=1 000,c2=100,c3=60;δ為Huber損失參數(shù),設(shè)為0.1;參考距離dref為障礙物與機(jī)械臂主體之間的默認(rèn)最小距離,設(shè)為0.2;指數(shù)式衰減因子p表示機(jī)械臂與障礙物間距離增加時(shí)的負(fù)面獎(jiǎng)勵(lì)的衰減,設(shè)為8。

    3.2 仿真場(chǎng)景

    在環(huán)境中加入虛擬障礙物,即半徑r=0.3 m的球體。機(jī)械臂的末端執(zhí)行器必須觸碰到空間中的一個(gè)點(diǎn)(目標(biāo)點(diǎn))。在該任務(wù)中,障礙物以不可預(yù)測(cè)的方式移動(dòng),機(jī)械臂必須避免發(fā)生碰撞。為執(zhí)行評(píng)估,將目標(biāo)點(diǎn)置于與地面平行的機(jī)器人的正前方的平面上,以模擬機(jī)械臂交互的生產(chǎn)線。障礙物表示為沿線性路徑移動(dòng)的球體,將障礙物放置于目標(biāo)點(diǎn)和機(jī)械臂之間。

    實(shí)驗(yàn)場(chǎng)景列舉如下:

    (1)場(chǎng)景1:固定目標(biāo),確定性移動(dòng)障礙物。目標(biāo)點(diǎn)的位置在每個(gè)周期都是相同的,障礙物以恒定速度從線性路徑的一端移動(dòng)至另一端。

    (2)場(chǎng)景2:固定目標(biāo),隨機(jī)移動(dòng)障礙物。目標(biāo)點(diǎn)的位置在每個(gè)周期均是相同的,障礙物沿路徑隨機(jī)移動(dòng),代表障礙物的球體在一段時(shí)間間隔內(nèi)的任何時(shí)間均可改變方向或停止不動(dòng)。

    (3)場(chǎng)景3:隨機(jī)目標(biāo),確定性移動(dòng)障礙物。在每個(gè)周期開始時(shí)對(duì)目標(biāo)點(diǎn)位置進(jìn)行隨機(jī)初始化,障礙物以確定性的方式來回移動(dòng)。

    (4)場(chǎng)景4:隨機(jī)目標(biāo),隨機(jī)移動(dòng)障礙物。在每個(gè)周期開始時(shí)對(duì)目標(biāo)點(diǎn)位置進(jìn)行隨機(jī)初始化,障礙物沿路徑隨機(jī)移動(dòng)。

    在所有實(shí)驗(yàn)中,記錄下每個(gè)周期的總獎(jiǎng)勵(lì)和平均損失函數(shù)。此外,在仿真的每個(gè)周期,對(duì)機(jī)械臂尖與目標(biāo)之間的距離的范數(shù)以及機(jī)械臂與障礙物之間距離的范數(shù)進(jìn)行檢索,以更好地展示機(jī)械臂在一輪訓(xùn)練中的行為特性。

    3.3 結(jié)果分析

    首先,測(cè)試所提方案在場(chǎng)景2中的障礙規(guī)避性能,該場(chǎng)景中包含固定目標(biāo)和隨機(jī)移動(dòng)障礙物??偑?jiǎng)勵(lì)函數(shù)的曲線如圖3所示。從圖中可以看出,所有實(shí)驗(yàn)的累積獎(jiǎng)勵(lì)收斂至最大值,機(jī)械臂學(xué)習(xí)到如何高效完成該任務(wù)的方式。這得益于所提方案中利用了歸一化優(yōu)勢(shì)函數(shù),它支持在連續(xù)空間中進(jìn)行Q學(xué)習(xí),實(shí)現(xiàn)了利用和探索的最優(yōu)平衡,在確保當(dāng)前獎(jiǎng)勵(lì)最大化的前提下提高了長(zhǎng)期獎(jiǎng)勵(lì)的性能。

    圖3 總獎(jiǎng)勵(lì)曲線圖

    圖4給出了4種不同場(chǎng)景測(cè)試中的平均損失變化情況。從圖中可以看出,平均損失函數(shù)曲線的波動(dòng)變化非常低。這是因?yàn)樗岱桨甘褂昧藲w一化優(yōu)勢(shì)函數(shù)的參數(shù)近似器技術(shù),它在提高收斂速度的同時(shí),實(shí)現(xiàn)了損失函數(shù)最小化。結(jié)果表明:利用所提方案,機(jī)械臂能夠在實(shí)現(xiàn)目標(biāo)和障礙規(guī)避之間做出最優(yōu)決策。

    圖4 4種不同場(chǎng)景測(cè)試中的平均損失變化情況

    圖5給出了場(chǎng)景2中機(jī)械臂在任務(wù)執(zhí)行過程中與目標(biāo)和障礙物的距離變化。隨著機(jī)械臂與障礙物間距離的縮短,機(jī)械臂會(huì)根據(jù)目標(biāo)點(diǎn)調(diào)整自身位置,并向遠(yuǎn)離障礙物的方向移動(dòng),直到與障礙物重新保持安全距離。隨著機(jī)器人逐漸靠近目標(biāo)點(diǎn),機(jī)械臂尖與目標(biāo)點(diǎn)之間的距離縮短,并保持機(jī)器人位置不變,直到障礙物球體與機(jī)器人身體的距離縮短到危險(xiǎn)距離。此時(shí),機(jī)器人相對(duì)于目標(biāo)而后退,直到障礙物移開并與機(jī)械臂保持一定距離。這是因?yàn)樵谒岱桨钢?,障礙物規(guī)避的優(yōu)先級(jí)始終是最高的,因此機(jī)械臂必須實(shí)時(shí)尋找到完全避開障礙物并抵達(dá)目標(biāo)點(diǎn)的動(dòng)作。結(jié)果表明:所提方案具有極高的安全性,有助于促進(jìn)人機(jī)安全共存。場(chǎng)景1、場(chǎng)景2和場(chǎng)景4中的實(shí)驗(yàn)均觀察到了相似的實(shí)驗(yàn)結(jié)果和機(jī)械臂行為特性。

    圖5 機(jī)械臂與目標(biāo)和障礙物的距離

    在機(jī)器人工作環(huán)境的平面橫截面上計(jì)算出的獎(jiǎng)勵(lì)函數(shù)特征如圖6所示。該平面與地面平行,高度與目標(biāo)相同。目標(biāo)點(diǎn)位置為(0.5,0.5),障礙物中心為(0.1,0)。為簡(jiǎn)單起見,假定機(jī)器人是一個(gè)在空間中移動(dòng)的點(diǎn),從圖6中可看出,得到的函數(shù)是凹函數(shù),數(shù)值小于0,且當(dāng)機(jī)器臂尖被放置到目標(biāo)點(diǎn)上時(shí)達(dá)到最大值。此外,隨著機(jī)械臂離障礙物越近,函數(shù)值越小,達(dá)到了完全規(guī)避碰撞的要求,理論上支撐了本文的結(jié)論。

    圖6 獎(jiǎng)勵(lì)函數(shù)特征

    3.4 遷移學(xué)習(xí)

    在機(jī)器學(xué)習(xí)中,遷移學(xué)習(xí)指的是利用先前獲得的知識(shí)完成不同的任務(wù)。經(jīng)過大量訓(xùn)練周期后,實(shí)驗(yàn)評(píng)估了遷移學(xué)習(xí)的結(jié)果,考慮了3種不同方法:

    (1)模型遷移:在初始化過程中對(duì)近似器參數(shù)進(jìn)行復(fù)用。

    (2)經(jīng)驗(yàn)遷移:對(duì)重放緩沖區(qū)RB中包含的信息(即四元組{st,at,rt,st+1})進(jìn)行復(fù)用。

    (3)混合遷移:結(jié)合以上兩點(diǎn)。

    使用實(shí)驗(yàn)過程中獲得的知識(shí)完成遷移,訓(xùn)練過程采用隨機(jī)目標(biāo)和障礙物確定性移動(dòng),任務(wù)為隨機(jī)移動(dòng)障礙物。圖7給出了使用3種方法進(jìn)行遷移學(xué)習(xí)的性能比較。其中,紅色(下方一條折線)表示僅使用模型遷移;黑色(上方一條折線)表示僅使用經(jīng)驗(yàn)遷移;藍(lán)色(中間一條折線)表示使用混合遷移。從圖中可以看出,使用經(jīng)驗(yàn)遷移的學(xué)習(xí)過程顯著提高了性能,整體獎(jiǎng)勵(lì)最高,混合遷移次之,而模型遷移的性能較差;同時(shí)還可以看出,獎(jiǎng)勵(lì)函數(shù)收斂速度較快,這也證明了所提方案中使用歸一化優(yōu)勢(shì)函數(shù)和價(jià)值函數(shù)的近似器方法的有效性。

    圖7 3種遷移學(xué)習(xí)方法的性能比較

    3.5 人機(jī)交互測(cè)試

    為了測(cè)試碰撞規(guī)避性能,實(shí)驗(yàn)還利用簡(jiǎn)單的圖像接口,對(duì)障礙物的方向進(jìn)行了手動(dòng)更改。圖8給出了試圖將障礙物靠近機(jī)械臂碰撞規(guī)避的實(shí)驗(yàn)結(jié)果。在該實(shí)驗(yàn)中,采用經(jīng)驗(yàn)遷移,訓(xùn)練過程為確定性移動(dòng)障礙物。實(shí)驗(yàn)人員嘗試將障礙物與機(jī)械臂碰撞,但機(jī)器人學(xué)習(xí)到的知識(shí)能夠規(guī)避障礙物。這證明了在所提方法中,機(jī)械臂能夠利用遷移學(xué)習(xí)應(yīng)對(duì)較為復(fù)雜的作業(yè)環(huán)境,并不斷改善自身的障礙規(guī)避性能,確保人與機(jī)械臂協(xié)同作業(yè)時(shí)的安全性。

    圖8 手動(dòng)障礙物的規(guī)避性能

    4 結(jié)語

    本文提出了基于深度增強(qiáng)學(xué)習(xí)的機(jī)械臂碰撞規(guī)避方案,能夠滿足在不同場(chǎng)景下機(jī)械臂實(shí)時(shí)規(guī)避障礙物的任務(wù)要求,有助于實(shí)現(xiàn)人機(jī)安全共存。同時(shí),利用深度Q學(xué)習(xí)逼近最優(yōu)策略以獲得長(zhǎng)期獎(jiǎng)勵(lì)最大化,且不受當(dāng)前遵循策略的影響。其中,Q函數(shù)的參數(shù)近似器解決了Q學(xué)習(xí)收斂速度慢的問題,并結(jié)合歸一化優(yōu)勢(shì)函數(shù)實(shí)現(xiàn)了機(jī)械臂動(dòng)作空間的利用和探索的平衡。

    猜你喜歡
    機(jī)械動(dòng)作
    下一個(gè)動(dòng)作
    機(jī)械革命Code01
    調(diào)試機(jī)械臂
    ikbc R300機(jī)械鍵盤
    動(dòng)作描寫要具體
    簡(jiǎn)單機(jī)械
    畫動(dòng)作
    讓動(dòng)作“活”起來
    動(dòng)作描寫不可少
    機(jī)械班長(zhǎng)
    99精品久久久久人妻精品| 法律面前人人平等表现在哪些方面| www国产在线视频色| 国产av又大| 欧美日韩福利视频一区二区| 亚洲欧美激情综合另类| 成人亚洲精品av一区二区| 一卡2卡三卡四卡精品乱码亚洲| 丰满人妻熟妇乱又伦精品不卡| 欧美大码av| 午夜免费鲁丝| 日日摸夜夜添夜夜添小说| 国产伦在线观看视频一区| 亚洲一区中文字幕在线| 亚洲人成网站在线播放欧美日韩| 12—13女人毛片做爰片一| 女人高潮潮喷娇喘18禁视频| 男人舔女人的私密视频| 午夜免费成人在线视频| 国产不卡一卡二| 一区二区日韩欧美中文字幕| 一级a爱片免费观看的视频| 18禁黄网站禁片免费观看直播| 999久久久国产精品视频| 国产精品一区二区精品视频观看| 看片在线看免费视频| 可以在线观看毛片的网站| 熟女少妇亚洲综合色aaa.| bbb黄色大片| 免费在线观看亚洲国产| xxxwww97欧美| 99精品久久久久人妻精品| 欧美成狂野欧美在线观看| 欧美成人一区二区免费高清观看 | 在线观看www视频免费| 国产野战对白在线观看| 身体一侧抽搐| 成人永久免费在线观看视频| 九色国产91popny在线| 成人国语在线视频| 大香蕉久久成人网| 91av网站免费观看| 久久天堂一区二区三区四区| 亚洲专区中文字幕在线| 一本大道久久a久久精品| 91老司机精品| 亚洲成a人片在线一区二区| 高清毛片免费观看视频网站| 久久久国产精品麻豆| 一区福利在线观看| 自线自在国产av| 麻豆成人av在线观看| av电影中文网址| 黑人欧美特级aaaaaa片| 亚洲第一欧美日韩一区二区三区| 国产精华一区二区三区| 国产亚洲精品久久久久5区| 国产精品免费一区二区三区在线| 国产野战对白在线观看| 精品人妻1区二区| 国产蜜桃级精品一区二区三区| 黄色视频不卡| 久久中文字幕一级| 一本久久中文字幕| 国产日本99.免费观看| 欧洲精品卡2卡3卡4卡5卡区| av视频在线观看入口| 亚洲av熟女| 欧美色视频一区免费| 欧美丝袜亚洲另类 | 丁香六月欧美| 国产激情偷乱视频一区二区| 久久久久久亚洲精品国产蜜桃av| 午夜免费鲁丝| 国产1区2区3区精品| 日日爽夜夜爽网站| 一级毛片女人18水好多| 亚洲精品av麻豆狂野| 不卡av一区二区三区| 夜夜看夜夜爽夜夜摸| 男女午夜视频在线观看| 美女高潮喷水抽搐中文字幕| 午夜亚洲福利在线播放| 久久性视频一级片| 欧美一级毛片孕妇| 精品国内亚洲2022精品成人| 久久久久国产精品人妻aⅴ院| 亚洲一区二区三区色噜噜| 91成人精品电影| 欧美午夜高清在线| 视频区欧美日本亚洲| 久久久久国内视频| 桃色一区二区三区在线观看| 中文在线观看免费www的网站 | 91在线观看av| 欧美三级亚洲精品| 日本五十路高清| 亚洲熟妇熟女久久| 午夜福利在线观看吧| 国产97色在线日韩免费| 人人澡人人妻人| 天天一区二区日本电影三级| 12—13女人毛片做爰片一| 欧美黑人精品巨大| 国产精品自产拍在线观看55亚洲| 久久久久国内视频| 国产亚洲欧美98| 精品国产乱子伦一区二区三区| 亚洲va日本ⅴa欧美va伊人久久| 少妇粗大呻吟视频| 一a级毛片在线观看| 久久久久久国产a免费观看| 亚洲国产精品成人综合色| 可以在线观看的亚洲视频| 午夜久久久在线观看| 9191精品国产免费久久| 亚洲三区欧美一区| 男人舔女人下体高潮全视频| 一个人免费在线观看的高清视频| 色精品久久人妻99蜜桃| 国产色视频综合| 两人在一起打扑克的视频| 黄片播放在线免费| 日韩精品中文字幕看吧| 日韩欧美 国产精品| 日韩欧美一区视频在线观看| 亚洲无线在线观看| 黑丝袜美女国产一区| 嫩草影院精品99| 欧美日韩亚洲综合一区二区三区_| 欧美日韩乱码在线| 久久久久久久久久黄片| 一区福利在线观看| 亚洲人成77777在线视频| 天天添夜夜摸| 男女之事视频高清在线观看| 搡老妇女老女人老熟妇| 色精品久久人妻99蜜桃| 老司机午夜十八禁免费视频| 99热这里只有精品一区 | 又紧又爽又黄一区二区| 女人高潮潮喷娇喘18禁视频| 日韩三级视频一区二区三区| 一本久久中文字幕| 国产v大片淫在线免费观看| 国产成人啪精品午夜网站| 精品高清国产在线一区| 一区二区三区激情视频| 精品国产一区二区三区四区第35| 国产精品精品国产色婷婷| 中国美女看黄片| 成人国语在线视频| 亚洲av成人一区二区三| 老司机靠b影院| 免费电影在线观看免费观看| 满18在线观看网站| aaaaa片日本免费| 一级毛片女人18水好多| 婷婷精品国产亚洲av| 无遮挡黄片免费观看| 国产黄a三级三级三级人| 麻豆av在线久日| 欧美一级毛片孕妇| 国产亚洲精品一区二区www| 国产爱豆传媒在线观看 | 亚洲成人精品中文字幕电影| 久久精品国产清高在天天线| 久久亚洲真实| 在线看三级毛片| 亚洲av中文字字幕乱码综合 | 亚洲九九香蕉| 制服诱惑二区| 欧美中文综合在线视频| 法律面前人人平等表现在哪些方面| 午夜日韩欧美国产| 在线观看免费视频日本深夜| av在线播放免费不卡| 欧美日韩亚洲综合一区二区三区_| 成人手机av| 99热这里只有精品一区 | 久久久久久免费高清国产稀缺| 久久国产精品男人的天堂亚洲| 国产一区二区激情短视频| 禁无遮挡网站| 在线播放国产精品三级| www日本在线高清视频| 欧美又色又爽又黄视频| 日本精品一区二区三区蜜桃| 亚洲黑人精品在线| 欧美成狂野欧美在线观看| 午夜久久久久精精品| 婷婷亚洲欧美| 黄色成人免费大全| 91字幕亚洲| 国产真人三级小视频在线观看| 成人亚洲精品一区在线观看| 后天国语完整版免费观看| 在线播放国产精品三级| 免费无遮挡裸体视频| 天天躁狠狠躁夜夜躁狠狠躁| 成人免费观看视频高清| 制服诱惑二区| 久久久久久久久免费视频了| av免费在线观看网站| 丁香欧美五月| 免费高清在线观看日韩| 亚洲成人久久爱视频| 免费在线观看日本一区| 国产一级毛片七仙女欲春2 | 日韩欧美国产在线观看| 手机成人av网站| 人人妻,人人澡人人爽秒播| 久久久国产精品麻豆| 非洲黑人性xxxx精品又粗又长| 丁香六月欧美| 91字幕亚洲| 国产精品自产拍在线观看55亚洲| 非洲黑人性xxxx精品又粗又长| 国产成人精品久久二区二区免费| 99久久久亚洲精品蜜臀av| 国产精品一区二区三区四区久久 | 制服人妻中文乱码| 亚洲成人免费电影在线观看| 国产精品,欧美在线| 国产成人一区二区三区免费视频网站| 精品国产国语对白av| 午夜免费成人在线视频| 精品国产乱码久久久久久男人| 亚洲一区高清亚洲精品| 女人爽到高潮嗷嗷叫在线视频| 亚洲欧美日韩无卡精品| 18禁美女被吸乳视频| 欧美日韩亚洲国产一区二区在线观看| 一二三四在线观看免费中文在| 少妇被粗大的猛进出69影院| 18禁裸乳无遮挡免费网站照片 | 夜夜看夜夜爽夜夜摸| 亚洲成人国产一区在线观看| 在线观看免费日韩欧美大片| 我的亚洲天堂| 91字幕亚洲| 黄色视频,在线免费观看| 国产日本99.免费观看| 国产精品亚洲美女久久久| 国产真人三级小视频在线观看| 国产精品久久久久久人妻精品电影| 色综合欧美亚洲国产小说| 757午夜福利合集在线观看| 少妇粗大呻吟视频| 日韩三级视频一区二区三区| 香蕉国产在线看| 欧美另类亚洲清纯唯美| 美女国产高潮福利片在线看| 日韩免费av在线播放| 18禁国产床啪视频网站| 亚洲狠狠婷婷综合久久图片| 俺也久久电影网| 中文在线观看免费www的网站 | 欧美日本视频| 一二三四在线观看免费中文在| 在线永久观看黄色视频| 午夜福利在线观看吧| 色尼玛亚洲综合影院| 波多野结衣巨乳人妻| 一区二区三区激情视频| 在线永久观看黄色视频| 国产伦人伦偷精品视频| 可以免费在线观看a视频的电影网站| 99国产精品一区二区三区| 国产三级在线视频| 日韩欧美免费精品| 亚洲男人的天堂狠狠| 又黄又粗又硬又大视频| 大型黄色视频在线免费观看| 国产精品二区激情视频| 亚洲五月婷婷丁香| 国产精品 欧美亚洲| 久久久久国产精品人妻aⅴ院| 久久精品夜夜夜夜夜久久蜜豆 | 亚洲欧美日韩无卡精品| 最近最新免费中文字幕在线| 天堂影院成人在线观看| 欧美日韩黄片免| 国产黄a三级三级三级人| 亚洲一区高清亚洲精品| 手机成人av网站| 99热只有精品国产| 香蕉国产在线看| 人人妻人人看人人澡| 久久人人精品亚洲av| 亚洲国产欧美一区二区综合| 午夜老司机福利片| 法律面前人人平等表现在哪些方面| 欧美成人午夜精品| 亚洲熟妇熟女久久| 性欧美人与动物交配| 白带黄色成豆腐渣| 亚洲男人天堂网一区| 在线看三级毛片| 亚洲av五月六月丁香网| 宅男免费午夜| 日韩有码中文字幕| 一本大道久久a久久精品| 国产欧美日韩一区二区三| 操出白浆在线播放| www日本在线高清视频| 久久久久久久久久黄片| 久久这里只有精品19| 国产精品乱码一区二三区的特点| 国产精品久久久久久精品电影 | 动漫黄色视频在线观看| 国产亚洲欧美在线一区二区| 欧美一级毛片孕妇| 国产亚洲av高清不卡| 美女高潮到喷水免费观看| 精品日产1卡2卡| 黄色 视频免费看| 亚洲性夜色夜夜综合| 亚洲一区高清亚洲精品| 一二三四在线观看免费中文在| 亚洲精品国产精品久久久不卡| 狂野欧美激情性xxxx| 亚洲精品一卡2卡三卡4卡5卡| 国产蜜桃级精品一区二区三区| 99riav亚洲国产免费| 50天的宝宝边吃奶边哭怎么回事| 动漫黄色视频在线观看| 日本精品一区二区三区蜜桃| 后天国语完整版免费观看| 中文字幕av电影在线播放| 亚洲精品一区av在线观看| 18美女黄网站色大片免费观看| 久久青草综合色| 国产男靠女视频免费网站| 男女视频在线观看网站免费 | 亚洲av中文字字幕乱码综合 | 三级毛片av免费| 老司机在亚洲福利影院| 国产午夜精品久久久久久| 老司机午夜福利在线观看视频| 老司机在亚洲福利影院| 亚洲国产欧洲综合997久久, | 天天躁狠狠躁夜夜躁狠狠躁| 亚洲五月婷婷丁香| 好看av亚洲va欧美ⅴa在| 91麻豆精品激情在线观看国产| 午夜激情福利司机影院| 午夜激情av网站| a级毛片a级免费在线| 美女扒开内裤让男人捅视频| 国产精品98久久久久久宅男小说| 女性生殖器流出的白浆| 成人18禁在线播放| 亚洲精品在线观看二区| 久久久久国内视频| 久久久久免费精品人妻一区二区 | 精品欧美国产一区二区三| 亚洲一区二区三区不卡视频| 日韩欧美三级三区| 97超级碰碰碰精品色视频在线观看| 一级黄色大片毛片| 国产精品日韩av在线免费观看| 色av中文字幕| 悠悠久久av| 欧美日韩乱码在线| 我的亚洲天堂| 国产成人系列免费观看| 久9热在线精品视频| 亚洲一区中文字幕在线| 啦啦啦 在线观看视频| 天堂影院成人在线观看| 无遮挡黄片免费观看| 一本一本综合久久| 欧美不卡视频在线免费观看 | 亚洲性夜色夜夜综合| 黑人欧美特级aaaaaa片| 天天躁狠狠躁夜夜躁狠狠躁| 久久香蕉激情| 久热爱精品视频在线9| 露出奶头的视频| www.熟女人妻精品国产| 波多野结衣高清无吗| 欧美成人一区二区免费高清观看 | 欧美成人一区二区免费高清观看 | 成年人黄色毛片网站| 搞女人的毛片| 日韩三级视频一区二区三区| 欧美一级毛片孕妇| 12—13女人毛片做爰片一| 国内毛片毛片毛片毛片毛片| 婷婷丁香在线五月| 日本黄色视频三级网站网址| 日韩视频一区二区在线观看| 亚洲欧美精品综合久久99| 久久久久久免费高清国产稀缺| av有码第一页| 美女 人体艺术 gogo| 欧美 亚洲 国产 日韩一| 精品乱码久久久久久99久播| 国产成人欧美在线观看| 老司机在亚洲福利影院| 一二三四社区在线视频社区8| 亚洲成av人片免费观看| 国产成人精品久久二区二区免费| 97人妻精品一区二区三区麻豆 | 国产久久久一区二区三区| 久久久久久九九精品二区国产 | 视频区欧美日本亚洲| 男女那种视频在线观看| 国产av一区二区精品久久| 精品一区二区三区四区五区乱码| 亚洲熟女毛片儿| 18禁美女被吸乳视频| 久久久久久久久中文| 欧美黑人欧美精品刺激| 亚洲男人的天堂狠狠| 18禁观看日本| 亚洲av熟女| 精品久久久久久久人妻蜜臀av| 日韩欧美一区二区三区在线观看| e午夜精品久久久久久久| 亚洲成人久久性| 俺也久久电影网| 成人国产综合亚洲| 天堂动漫精品| 脱女人内裤的视频| 久久久久亚洲av毛片大全| 亚洲成av人片免费观看| 欧美最黄视频在线播放免费| 久久婷婷人人爽人人干人人爱| aaaaa片日本免费| 身体一侧抽搐| 久久精品91无色码中文字幕| 日韩国内少妇激情av| 国产黄a三级三级三级人| 亚洲欧美精品综合久久99| 国产男靠女视频免费网站| 久久香蕉激情| 亚洲国产高清在线一区二区三 | 高清毛片免费观看视频网站| 亚洲一区中文字幕在线| 成在线人永久免费视频| 免费一级毛片在线播放高清视频| 18禁国产床啪视频网站| 国产亚洲欧美精品永久| 波多野结衣av一区二区av| 精品熟女少妇八av免费久了| 在线观看免费视频日本深夜| 亚洲国产精品sss在线观看| 日本成人三级电影网站| 亚洲av日韩精品久久久久久密| aaaaa片日本免费| 国产午夜福利久久久久久| 母亲3免费完整高清在线观看| 久久精品亚洲精品国产色婷小说| 女生性感内裤真人,穿戴方法视频| 久久国产精品人妻蜜桃| 精品国产美女av久久久久小说| 老司机福利观看| 波多野结衣高清无吗| 国产熟女午夜一区二区三区| 一级毛片精品| 88av欧美| 国产人伦9x9x在线观看| 巨乳人妻的诱惑在线观看| 午夜老司机福利片| 久久婷婷成人综合色麻豆| 午夜福利在线观看吧| 亚洲最大成人中文| 久久久久久国产a免费观看| 天堂影院成人在线观看| 精华霜和精华液先用哪个| 男人操女人黄网站| 欧美三级亚洲精品| 视频在线观看一区二区三区| 亚洲国产精品合色在线| 日韩欧美免费精品| 国产亚洲精品一区二区www| 露出奶头的视频| 精品高清国产在线一区| 亚洲成av片中文字幕在线观看| 日韩欧美国产在线观看| 日韩欧美一区视频在线观看| 老司机福利观看| 搡老岳熟女国产| 欧美黄色淫秽网站| 色在线成人网| 亚洲欧美激情综合另类| 999精品在线视频| 精品欧美国产一区二区三| 国产一区二区三区视频了| 大香蕉久久成人网| 亚洲 欧美 日韩 在线 免费| 日韩高清综合在线| 国产精品98久久久久久宅男小说| 99国产精品一区二区蜜桃av| 成人国产综合亚洲| 日韩av在线大香蕉| 成年版毛片免费区| 亚洲国产欧洲综合997久久, | 成人国产一区最新在线观看| 可以在线观看的亚洲视频| 嫩草影视91久久| 老司机午夜十八禁免费视频| 精品久久久久久,| 欧美日韩亚洲国产一区二区在线观看| 国产主播在线观看一区二区| 国产aⅴ精品一区二区三区波| 天堂动漫精品| 精品久久久久久久人妻蜜臀av| 天天添夜夜摸| 欧美 亚洲 国产 日韩一| 久久久久久久精品吃奶| 午夜激情av网站| 成人午夜高清在线视频 | 91av网站免费观看| 中文资源天堂在线| 日本免费a在线| 两性午夜刺激爽爽歪歪视频在线观看 | 黄色丝袜av网址大全| 欧美激情 高清一区二区三区| 精品国产乱子伦一区二区三区| 国产三级黄色录像| 国产熟女xx| 18禁美女被吸乳视频| 亚洲最大成人中文| 亚洲七黄色美女视频| 国产精品一区二区精品视频观看| 午夜福利在线观看吧| 亚洲 欧美 日韩 在线 免费| 午夜精品在线福利| 熟女电影av网| 俺也久久电影网| 国产精品国产高清国产av| 最近最新中文字幕大全免费视频| 免费在线观看视频国产中文字幕亚洲| 久久国产亚洲av麻豆专区| 91麻豆精品激情在线观看国产| 精品久久久久久久久久免费视频| 久久久久久久久久黄片| 中文在线观看免费www的网站 | 日韩成人在线观看一区二区三区| 夜夜夜夜夜久久久久| 久久久久亚洲av毛片大全| 日本撒尿小便嘘嘘汇集6| 波多野结衣av一区二区av| 一卡2卡三卡四卡精品乱码亚洲| 久久99热这里只有精品18| 午夜免费鲁丝| 天天添夜夜摸| 亚洲自偷自拍图片 自拍| 人成视频在线观看免费观看| 少妇 在线观看| 视频在线观看一区二区三区| 黄色 视频免费看| 日韩一卡2卡3卡4卡2021年| 搡老岳熟女国产| 中文字幕最新亚洲高清| 国产精品九九99| 搞女人的毛片| 国产成人精品无人区| 麻豆成人av在线观看| 亚洲色图 男人天堂 中文字幕| 国产高清视频在线播放一区| 两人在一起打扑克的视频| 久久久国产欧美日韩av| 国产成人啪精品午夜网站| 天堂动漫精品| 搡老熟女国产l中国老女人| 99久久无色码亚洲精品果冻| 亚洲中文字幕一区二区三区有码在线看 | 久久香蕉精品热| 麻豆成人午夜福利视频| 亚洲av成人不卡在线观看播放网| 免费在线观看亚洲国产| 精华霜和精华液先用哪个| 级片在线观看| 在线天堂中文资源库| 好看av亚洲va欧美ⅴa在| 亚洲五月天丁香| 国产高清视频在线播放一区| www国产在线视频色| 一进一出好大好爽视频| 亚洲av中文字字幕乱码综合 | 久久久久国产精品人妻aⅴ院| 男人的好看免费观看在线视频 | 国产精品久久久久久精品电影 | 天堂√8在线中文| 一区二区三区国产精品乱码| 免费女性裸体啪啪无遮挡网站| 精品福利观看| 两性夫妻黄色片| www.自偷自拍.com| 精品欧美一区二区三区在线| 18禁国产床啪视频网站| 国产1区2区3区精品| 狠狠狠狠99中文字幕| 国产一区二区三区视频了| 首页视频小说图片口味搜索| 国产欧美日韩一区二区三| 黄色a级毛片大全视频| videosex国产| 在线十欧美十亚洲十日本专区| 日韩高清综合在线| 成人国产一区最新在线观看| 成人国语在线视频| 他把我摸到了高潮在线观看| 一级毛片精品| 满18在线观看网站| 精品一区二区三区视频在线观看免费| 桃色一区二区三区在线观看| 美女午夜性视频免费| 精品一区二区三区av网在线观看| 成人亚洲精品一区在线观看| netflix在线观看网站|