吳戴燕,劉世林
(1.安徽六安技師學(xué)院 機(jī)電工程系,安徽 六安 237001;2.安徽工程大學(xué) 電子工程學(xué)院,安徽 蕪湖 241000)
當(dāng)前,機(jī)器人被廣泛用于日常生活和工業(yè)任務(wù)中,以滿足極端環(huán)境下的復(fù)雜需求,例如裝配、交通、手術(shù)、太空探索等[1]。為實(shí)現(xiàn)人與機(jī)器人的緊密協(xié)作,必須采取以安全為核心的控制策略,實(shí)現(xiàn)人與機(jī)器人的安全共存[2]。
從目前的研究成果看,機(jī)械臂障礙物規(guī)避的規(guī)劃方法包括機(jī)械臂的柔性機(jī)械設(shè)計(jì)、基于外感受傳感器的碰撞檢測(cè)和反應(yīng)策略等[3-4]。如熊志金等[5]提出采用徑向基(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)算法逼近滑??刂破鬏敵稣`差,以規(guī)避障礙物并提高控制系統(tǒng)輸出和運(yùn)動(dòng)穩(wěn)定性。此外,研究人員還提出了很多基于勢(shì)場(chǎng)方法的實(shí)時(shí)規(guī)劃算法[6-7],此類方法將虛擬排斥場(chǎng)與障礙物相關(guān)聯(lián)以實(shí)現(xiàn)規(guī)避,并將引力場(chǎng)與目標(biāo)相關(guān)聯(lián),以抵達(dá)目標(biāo)。COLOMBO等[8]提出了基于參數(shù)化無撞軌跡的實(shí)時(shí)自適應(yīng)運(yùn)動(dòng)規(guī)劃算法,并根據(jù)機(jī)器人傳感器發(fā)現(xiàn)的環(huán)境變化對(duì)參數(shù)進(jìn)行更新。于思淼等[9]提出了虛擬彈簧概念以生成無碰撞運(yùn)動(dòng)軌跡,并結(jié)合了人類行為模式預(yù)測(cè)。
深度學(xué)習(xí)提供了操縱、處理和分析數(shù)據(jù)的新方式,在一些情況下甚至取得了優(yōu)于人類專家的表現(xiàn)。增強(qiáng)學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支,其嘗試通過環(huán)境交互得到最優(yōu)行為策略。將深度學(xué)習(xí)與增強(qiáng)學(xué)習(xí)相結(jié)合,有助于解決機(jī)械臂障礙物規(guī)避問題中因獎(jiǎng)勵(lì)信號(hào)的稀疏性造成的數(shù)據(jù)維度和可擴(kuò)展性問題,提高采樣效率和通用性[10]。
對(duì)于機(jī)器人系統(tǒng),基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)進(jìn)行Q函數(shù)逼近的無模型方法被證明是有用的[11-12]。因此,本文利用深度增強(qiáng)學(xué)習(xí)(Deep Reinforcement Learning,DRL)技術(shù)處理碰撞規(guī)避問題,并在場(chǎng)景中考慮了存在入侵機(jī)械臂工作空間的障礙物。與大部分碰撞規(guī)避方法不同,文中所提方法是無模型方法,其顯著降低了設(shè)計(jì)和實(shí)施的工作量。此外,此方法克服了離線軌跡生成以及在線更新執(zhí)行過程中產(chǎn)生的相關(guān)問題。
多關(guān)節(jié)機(jī)器人是當(dāng)前比較常用的機(jī)器人類型,也被稱為機(jī)械臂。機(jī)械臂可表述為通過電機(jī)驅(qū)動(dòng)關(guān)節(jié)移動(dòng)的一系列連桿。其每個(gè)關(guān)節(jié)表示一個(gè)軸,為相鄰連桿之間受控的相對(duì)移動(dòng)提供額外的自由度(Degree of Freedom,DoF)。通常自動(dòng)度數(shù)等于關(guān)節(jié)數(shù)量,末端受動(dòng)器為附著在結(jié)構(gòu)末端的輔具,以完成實(shí)際任務(wù)。根據(jù)不同應(yīng)用,末端受動(dòng)器可被設(shè)計(jì)為改錐、電刷等其他機(jī)械設(shè)備。連桿為連接基座、關(guān)節(jié)或末端執(zhí)行器的剛性或類剛性組件,并負(fù)責(zé)承載結(jié)構(gòu)負(fù)載。
增強(qiáng)學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支,通過動(dòng)態(tài)自動(dòng)試錯(cuò)得到最大化收益的最優(yōu)行為策略,其通用模型如圖1所示,在學(xué)習(xí)中根據(jù)狀態(tài)變化進(jìn)行懲罰或獎(jiǎng)勵(lì)。
圖1 增強(qiáng)學(xué)習(xí)模型
當(dāng)智能體處于某個(gè)狀態(tài)中時(shí),它可根據(jù)當(dāng)前策略選擇行動(dòng),并從環(huán)境中接收?qǐng)?zhí)行該動(dòng)作的獎(jiǎng)勵(lì)。通過學(xué)習(xí)獎(jiǎng)勵(lì),智能體轉(zhuǎn)移到新狀態(tài),選擇新的行動(dòng),并對(duì)該過程反復(fù)迭代。在機(jī)器人控制領(lǐng)域,通常無法得到在所有情況下都正確且有代表性的期望行為樣本,因此獎(jiǎng)勵(lì)通常是較弱的稀疏信號(hào)。在增強(qiáng)學(xué)習(xí)中,智能體僅根據(jù)稀疏時(shí)延獎(jiǎng)勵(lì),學(xué)習(xí)如何在環(huán)境中行動(dòng)。
傳統(tǒng)的增強(qiáng)學(xué)習(xí)受限于簡(jiǎn)單狀態(tài)表征,DRL使得智能體可以利用神經(jīng)網(wǎng)絡(luò)對(duì)策略進(jìn)行表征,從高維非結(jié)構(gòu)化輸入數(shù)據(jù)中制定決策。在機(jī)械臂控制中,DRL的目的是訓(xùn)練深度策略神經(jīng)網(wǎng)絡(luò),以檢測(cè)能夠完成任務(wù)的最優(yōu)指令序列。使用DRL的機(jī)械臂控制流程圖如圖2所示,其中,輸入為當(dāng)前狀態(tài),包括機(jī)械臂關(guān)節(jié)角度、末端受動(dòng)器位置及其推衍信息,例如速度和加速度等;策略網(wǎng)絡(luò)的輸出為可實(shí)施到每個(gè)執(zhí)行器的控制指令代表的行動(dòng),例如轉(zhuǎn)向或速度命令。當(dāng)機(jī)械臂完成任務(wù)時(shí),生成正向獎(jiǎng)勵(lì)。利用這些延遲弱信號(hào),尋找機(jī)械臂操控的最優(yōu)控制策略。
圖2 使用DRL的機(jī)械臂控制流程圖
在每個(gè)時(shí)間步t,將智能體和環(huán)境建模為st∈S,其中,S為狀態(tài)空間,包含系統(tǒng)所有相關(guān)信息。從給定狀態(tài)出發(fā),智能體執(zhí)行動(dòng)作at∈A,A表示動(dòng)作空間。每個(gè)動(dòng)作會(huì)擾動(dòng)環(huán)境,改變其狀態(tài)。智能體在進(jìn)入下一個(gè)時(shí)間步t+1之前,接收獎(jiǎng)勵(lì)r∈R,R為獎(jiǎng)勵(lì)空間,然后根據(jù)動(dòng)力系統(tǒng)ρ(st+1|st,at)移動(dòng)至新狀態(tài)st∈S。S和A可以是連續(xù)集,也可以是離散集。從狀態(tài)到動(dòng)作的映射取決于策略π,策略可以是確定性的,也可以是概率性的。對(duì)于給定的控制任務(wù),將學(xué)習(xí)過程分為多個(gè)訓(xùn)練輪,其中,智能體與環(huán)境交互,以嘗試完成任務(wù)目標(biāo),或者在重置前執(zhí)行固定數(shù)量的時(shí)間步。
獎(jiǎng)勵(lì)rt為標(biāo)量反饋信號(hào),表示智能體在時(shí)間步t的效果評(píng)估。智能體的目標(biāo)是最大化其接收到的長(zhǎng)期(預(yù)期)累積獎(jiǎng)勵(lì)。對(duì)于有效時(shí)間范圍內(nèi)的臨時(shí)任務(wù)T,預(yù)期累積獎(jiǎng)勵(lì)Rt定義為
式(1)中,0≤γ≤1為折扣率,以使近期獎(jiǎng)勵(lì)的優(yōu)先級(jí)高于遠(yuǎn)期獎(jiǎng)勵(lì)。系統(tǒng)模型使用狀態(tài)和動(dòng)作集合以及環(huán)境轉(zhuǎn)變概率矩陣定義的馬爾可夫決策過程(Markov Decision Process,MDP)。給定當(dāng)前狀態(tài)s、行動(dòng)a和下一個(gè)狀態(tài)s′,下一次獎(jiǎng)勵(lì)的預(yù)期值定義為
式(2)中,策略π(a|s)表示智能體在狀態(tài)s時(shí)執(zhí)行動(dòng)作a的概率。從特定狀態(tài)開始,遵循策略π的預(yù)期累積獎(jiǎng)勵(lì)被稱為價(jià)值函數(shù)。
在訓(xùn)練過程中,需要測(cè)量關(guān)節(jié)位置q,關(guān)節(jié)速度,目標(biāo)點(diǎn)位置pt,末端受動(dòng)器位置pe,障礙物位置po,以及障礙物速度o。假定末端受動(dòng)器和目標(biāo)的位置是已知的,并能夠正確估計(jì)出障礙物的位置。由此,將狀態(tài)空間S定義為
動(dòng)作空間A定義為
獎(jiǎng)勵(lì)函數(shù)是通過三個(gè)因素的加權(quán)和所定義的標(biāo)量函數(shù)。這三個(gè)因素分別為末端受動(dòng)器和目標(biāo)點(diǎn)之間的距離、動(dòng)作的幅度以及障礙物與機(jī)械臂的距離,定義為
本文使用Huber損失函數(shù)[13]計(jì)算末端受動(dòng)器和目標(biāo)點(diǎn)之間的距離RT,定義為
式(6)中,d為機(jī)械臂尖與目標(biāo)之間的歐氏距離,δ為平滑度參數(shù)。
機(jī)械臂執(zhí)行動(dòng)作的幅度RA計(jì)算為動(dòng)作向量a的范數(shù)的平方,即
動(dòng)作幅度對(duì)獎(jiǎng)勵(lì)起負(fù)面作用,因此應(yīng)鼓勵(lì)較小幅度的動(dòng)作。機(jī)械臂和障礙物之間的距離RO為
式(8)中,dref為常數(shù),以使得0 MDP要求環(huán)境轉(zhuǎn)變概率模型是完全可觀察的,但在機(jī)器人系統(tǒng)中,該信息常會(huì)不可用,因此需要一個(gè)不同的學(xué)習(xí)模型。Q學(xué)習(xí)[14]是離策略算法,直接逼近最優(yōu)動(dòng)作值函數(shù)Q*,且不受當(dāng)前遵循策略的影響。在選擇動(dòng)作時(shí),智能體可通過隨機(jī)選擇一個(gè)動(dòng)作并忽略以往知識(shí),來執(zhí)行概率為ε的環(huán)境探索。 在包含大量狀態(tài)的連續(xù)動(dòng)作問題中,Q學(xué)習(xí)未必可行。Q學(xué)習(xí)的優(yōu)點(diǎn)是不需要環(huán)境的先驗(yàn)?zāi)P图纯勺灾鲗W(xué)習(xí),但對(duì)最優(yōu)解的收斂速度較慢,不能滿足實(shí)時(shí)應(yīng)用需求。在這種情況下,可利用動(dòng)作值函數(shù)(Q函數(shù))的參數(shù)近似器來解決該問題[15]。參數(shù)近似器可通過深度神經(jīng)網(wǎng)絡(luò)(DNN)構(gòu)建。DNN是參數(shù)函數(shù),可對(duì)復(fù)雜的非線性關(guān)系建模??紤]參數(shù)化的動(dòng)作值函數(shù)(st,at|θQ)為 式(10)中,yt為目標(biāo),即 式(11)中,θQ為行動(dòng)價(jià)值函數(shù)的參數(shù),β為隨機(jī)行為策略,以使得at=β(st),ρβ為策略β下的狀態(tài)訪問頻率。 歸一化優(yōu)勢(shì)函數(shù)支持在連續(xù)動(dòng)作空間中使用Q學(xué)習(xí),其理念是設(shè)計(jì)Q函數(shù),以使得可以在每次更新過程中簡(jiǎn)單計(jì)算出最大的,即使用DNN分別輸出和,優(yōu)勢(shì)函數(shù)被參數(shù)化為4次函數(shù),如下: 式(12)中,P(x|θP)為通過L(s|θ)L(s|θ)T參數(shù)化的正定方陣,L為下三角矩陣,其元素來自神經(jīng)網(wǎng)絡(luò)的線性激活函數(shù)。Q函數(shù)在動(dòng)作中是4次函數(shù),通過計(jì)算最大值可得: 由此能夠最大化Q(s,a)的動(dòng)作a可表示為 基于歸一化優(yōu)勢(shì)函數(shù)的連續(xù)Q學(xué)習(xí)如算法1所示,其中,TN和PN網(wǎng)絡(luò)分別表示目標(biāo)網(wǎng)絡(luò)和預(yù)定義網(wǎng)絡(luò),以使用當(dāng)前預(yù)測(cè)參數(shù)和過去目標(biāo)參數(shù)來更新當(dāng)前目標(biāo)參數(shù)。噪聲元素D為隨機(jī)過程,將其添加到動(dòng)作中以加快探索。整個(gè)過程通過重放緩沖RB采集訓(xùn)練過程中生成的所有樣本i={st,at,rt,st+1}。小批MB中包含了從RB隨機(jī)采集的固定數(shù)量樣本,可利用單位方差和零均值進(jìn)行歸一化。最后,系數(shù)γ、η和τ分別為折扣因子、學(xué)習(xí)因子和更新因子。 算法1:提出的改進(jìn)Q學(xué)習(xí)算法,如下: 為了驗(yàn)證所提方案的性能,使用模擬器V-REF模擬用于訓(xùn)練過程的物理環(huán)境。使用TensorFlow實(shí)施模擬器和歸一化優(yōu)勢(shì)函數(shù)(Normalized Advantage Functions,NAF)算法,并將其連接到V-REP的遠(yuǎn)程API。使用的 PC 配置為 i7 4790 K 4 GHz,16 GB RAM,NVIDIA GTX 1080 GPU,4 GB DRAM。 超參數(shù)指的是為了調(diào)整學(xué)習(xí)環(huán)境必須要設(shè)置的所有元素。本文訓(xùn)練過程中探索數(shù)值設(shè)定如下:噪聲類型D表示在每個(gè)時(shí)間步向動(dòng)作添加隨機(jī)過程,以保持對(duì)環(huán)境的探索,實(shí)驗(yàn)使用Ornstein-Uhlenbeck噪聲,噪聲比例設(shè)為1,噪聲衰減因子表示噪聲在訓(xùn)練過程中的衰減速度,設(shè)為0.01。NAF學(xué)習(xí)算法中,更新因子τ設(shè)為0.001,折扣因子γ設(shè)為0.99,學(xué)習(xí)率η設(shè)為0.001。獎(jiǎng)勵(lì)函數(shù)相關(guān)參數(shù)中,c1、c2、c3分別為機(jī)械臂到目標(biāo)的距離、動(dòng)作幅度、到障礙物的距離的權(quán)重,設(shè)c1=1 000,c2=100,c3=60;δ為Huber損失參數(shù),設(shè)為0.1;參考距離dref為障礙物與機(jī)械臂主體之間的默認(rèn)最小距離,設(shè)為0.2;指數(shù)式衰減因子p表示機(jī)械臂與障礙物間距離增加時(shí)的負(fù)面獎(jiǎng)勵(lì)的衰減,設(shè)為8。 在環(huán)境中加入虛擬障礙物,即半徑r=0.3 m的球體。機(jī)械臂的末端執(zhí)行器必須觸碰到空間中的一個(gè)點(diǎn)(目標(biāo)點(diǎn))。在該任務(wù)中,障礙物以不可預(yù)測(cè)的方式移動(dòng),機(jī)械臂必須避免發(fā)生碰撞。為執(zhí)行評(píng)估,將目標(biāo)點(diǎn)置于與地面平行的機(jī)器人的正前方的平面上,以模擬機(jī)械臂交互的生產(chǎn)線。障礙物表示為沿線性路徑移動(dòng)的球體,將障礙物放置于目標(biāo)點(diǎn)和機(jī)械臂之間。 實(shí)驗(yàn)場(chǎng)景列舉如下: (1)場(chǎng)景1:固定目標(biāo),確定性移動(dòng)障礙物。目標(biāo)點(diǎn)的位置在每個(gè)周期都是相同的,障礙物以恒定速度從線性路徑的一端移動(dòng)至另一端。 (2)場(chǎng)景2:固定目標(biāo),隨機(jī)移動(dòng)障礙物。目標(biāo)點(diǎn)的位置在每個(gè)周期均是相同的,障礙物沿路徑隨機(jī)移動(dòng),代表障礙物的球體在一段時(shí)間間隔內(nèi)的任何時(shí)間均可改變方向或停止不動(dòng)。 (3)場(chǎng)景3:隨機(jī)目標(biāo),確定性移動(dòng)障礙物。在每個(gè)周期開始時(shí)對(duì)目標(biāo)點(diǎn)位置進(jìn)行隨機(jī)初始化,障礙物以確定性的方式來回移動(dòng)。 (4)場(chǎng)景4:隨機(jī)目標(biāo),隨機(jī)移動(dòng)障礙物。在每個(gè)周期開始時(shí)對(duì)目標(biāo)點(diǎn)位置進(jìn)行隨機(jī)初始化,障礙物沿路徑隨機(jī)移動(dòng)。 在所有實(shí)驗(yàn)中,記錄下每個(gè)周期的總獎(jiǎng)勵(lì)和平均損失函數(shù)。此外,在仿真的每個(gè)周期,對(duì)機(jī)械臂尖與目標(biāo)之間的距離的范數(shù)以及機(jī)械臂與障礙物之間距離的范數(shù)進(jìn)行檢索,以更好地展示機(jī)械臂在一輪訓(xùn)練中的行為特性。 首先,測(cè)試所提方案在場(chǎng)景2中的障礙規(guī)避性能,該場(chǎng)景中包含固定目標(biāo)和隨機(jī)移動(dòng)障礙物??偑?jiǎng)勵(lì)函數(shù)的曲線如圖3所示。從圖中可以看出,所有實(shí)驗(yàn)的累積獎(jiǎng)勵(lì)收斂至最大值,機(jī)械臂學(xué)習(xí)到如何高效完成該任務(wù)的方式。這得益于所提方案中利用了歸一化優(yōu)勢(shì)函數(shù),它支持在連續(xù)空間中進(jìn)行Q學(xué)習(xí),實(shí)現(xiàn)了利用和探索的最優(yōu)平衡,在確保當(dāng)前獎(jiǎng)勵(lì)最大化的前提下提高了長(zhǎng)期獎(jiǎng)勵(lì)的性能。 圖3 總獎(jiǎng)勵(lì)曲線圖 圖4給出了4種不同場(chǎng)景測(cè)試中的平均損失變化情況。從圖中可以看出,平均損失函數(shù)曲線的波動(dòng)變化非常低。這是因?yàn)樗岱桨甘褂昧藲w一化優(yōu)勢(shì)函數(shù)的參數(shù)近似器技術(shù),它在提高收斂速度的同時(shí),實(shí)現(xiàn)了損失函數(shù)最小化。結(jié)果表明:利用所提方案,機(jī)械臂能夠在實(shí)現(xiàn)目標(biāo)和障礙規(guī)避之間做出最優(yōu)決策。 圖4 4種不同場(chǎng)景測(cè)試中的平均損失變化情況 圖5給出了場(chǎng)景2中機(jī)械臂在任務(wù)執(zhí)行過程中與目標(biāo)和障礙物的距離變化。隨著機(jī)械臂與障礙物間距離的縮短,機(jī)械臂會(huì)根據(jù)目標(biāo)點(diǎn)調(diào)整自身位置,并向遠(yuǎn)離障礙物的方向移動(dòng),直到與障礙物重新保持安全距離。隨著機(jī)器人逐漸靠近目標(biāo)點(diǎn),機(jī)械臂尖與目標(biāo)點(diǎn)之間的距離縮短,并保持機(jī)器人位置不變,直到障礙物球體與機(jī)器人身體的距離縮短到危險(xiǎn)距離。此時(shí),機(jī)器人相對(duì)于目標(biāo)而后退,直到障礙物移開并與機(jī)械臂保持一定距離。這是因?yàn)樵谒岱桨钢?,障礙物規(guī)避的優(yōu)先級(jí)始終是最高的,因此機(jī)械臂必須實(shí)時(shí)尋找到完全避開障礙物并抵達(dá)目標(biāo)點(diǎn)的動(dòng)作。結(jié)果表明:所提方案具有極高的安全性,有助于促進(jìn)人機(jī)安全共存。場(chǎng)景1、場(chǎng)景2和場(chǎng)景4中的實(shí)驗(yàn)均觀察到了相似的實(shí)驗(yàn)結(jié)果和機(jī)械臂行為特性。 圖5 機(jī)械臂與目標(biāo)和障礙物的距離 在機(jī)器人工作環(huán)境的平面橫截面上計(jì)算出的獎(jiǎng)勵(lì)函數(shù)特征如圖6所示。該平面與地面平行,高度與目標(biāo)相同。目標(biāo)點(diǎn)位置為(0.5,0.5),障礙物中心為(0.1,0)。為簡(jiǎn)單起見,假定機(jī)器人是一個(gè)在空間中移動(dòng)的點(diǎn),從圖6中可看出,得到的函數(shù)是凹函數(shù),數(shù)值小于0,且當(dāng)機(jī)器臂尖被放置到目標(biāo)點(diǎn)上時(shí)達(dá)到最大值。此外,隨著機(jī)械臂離障礙物越近,函數(shù)值越小,達(dá)到了完全規(guī)避碰撞的要求,理論上支撐了本文的結(jié)論。 圖6 獎(jiǎng)勵(lì)函數(shù)特征 在機(jī)器學(xué)習(xí)中,遷移學(xué)習(xí)指的是利用先前獲得的知識(shí)完成不同的任務(wù)。經(jīng)過大量訓(xùn)練周期后,實(shí)驗(yàn)評(píng)估了遷移學(xué)習(xí)的結(jié)果,考慮了3種不同方法: (1)模型遷移:在初始化過程中對(duì)近似器參數(shù)進(jìn)行復(fù)用。 (2)經(jīng)驗(yàn)遷移:對(duì)重放緩沖區(qū)RB中包含的信息(即四元組{st,at,rt,st+1})進(jìn)行復(fù)用。 (3)混合遷移:結(jié)合以上兩點(diǎn)。 使用實(shí)驗(yàn)過程中獲得的知識(shí)完成遷移,訓(xùn)練過程采用隨機(jī)目標(biāo)和障礙物確定性移動(dòng),任務(wù)為隨機(jī)移動(dòng)障礙物。圖7給出了使用3種方法進(jìn)行遷移學(xué)習(xí)的性能比較。其中,紅色(下方一條折線)表示僅使用模型遷移;黑色(上方一條折線)表示僅使用經(jīng)驗(yàn)遷移;藍(lán)色(中間一條折線)表示使用混合遷移。從圖中可以看出,使用經(jīng)驗(yàn)遷移的學(xué)習(xí)過程顯著提高了性能,整體獎(jiǎng)勵(lì)最高,混合遷移次之,而模型遷移的性能較差;同時(shí)還可以看出,獎(jiǎng)勵(lì)函數(shù)收斂速度較快,這也證明了所提方案中使用歸一化優(yōu)勢(shì)函數(shù)和價(jià)值函數(shù)的近似器方法的有效性。 圖7 3種遷移學(xué)習(xí)方法的性能比較 為了測(cè)試碰撞規(guī)避性能,實(shí)驗(yàn)還利用簡(jiǎn)單的圖像接口,對(duì)障礙物的方向進(jìn)行了手動(dòng)更改。圖8給出了試圖將障礙物靠近機(jī)械臂碰撞規(guī)避的實(shí)驗(yàn)結(jié)果。在該實(shí)驗(yàn)中,采用經(jīng)驗(yàn)遷移,訓(xùn)練過程為確定性移動(dòng)障礙物。實(shí)驗(yàn)人員嘗試將障礙物與機(jī)械臂碰撞,但機(jī)器人學(xué)習(xí)到的知識(shí)能夠規(guī)避障礙物。這證明了在所提方法中,機(jī)械臂能夠利用遷移學(xué)習(xí)應(yīng)對(duì)較為復(fù)雜的作業(yè)環(huán)境,并不斷改善自身的障礙規(guī)避性能,確保人與機(jī)械臂協(xié)同作業(yè)時(shí)的安全性。 圖8 手動(dòng)障礙物的規(guī)避性能 本文提出了基于深度增強(qiáng)學(xué)習(xí)的機(jī)械臂碰撞規(guī)避方案,能夠滿足在不同場(chǎng)景下機(jī)械臂實(shí)時(shí)規(guī)避障礙物的任務(wù)要求,有助于實(shí)現(xiàn)人機(jī)安全共存。同時(shí),利用深度Q學(xué)習(xí)逼近最優(yōu)策略以獲得長(zhǎng)期獎(jiǎng)勵(lì)最大化,且不受當(dāng)前遵循策略的影響。其中,Q函數(shù)的參數(shù)近似器解決了Q學(xué)習(xí)收斂速度慢的問題,并結(jié)合歸一化優(yōu)勢(shì)函數(shù)實(shí)現(xiàn)了機(jī)械臂動(dòng)作空間的利用和探索的平衡。2.4 利用與探索的權(quán)衡
2.5 改進(jìn)Q學(xué)習(xí)算法
3 實(shí)驗(yàn)與分析
3.1 參數(shù)設(shè)置
3.2 仿真場(chǎng)景
3.3 結(jié)果分析
3.4 遷移學(xué)習(xí)
3.5 人機(jī)交互測(cè)試
4 結(jié)語