靳棟銀,李 躍,邵振洲,施智平,關(guān) 永,4
1.首都師范大學(xué) 信息工程學(xué)院,北京 100048
2.首都師范大學(xué) 輕型工業(yè)機(jī)械臂與安全驗(yàn)證北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048
3.河北工業(yè)職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)技術(shù)系,石家莊 050000
4.首都師范大學(xué) 成像技術(shù)北京市高精尖創(chuàng)新中心,北京 100048
現(xiàn)如今,隨著信息化和工業(yè)化的不斷融合,機(jī)器人技術(shù)飛速發(fā)展,機(jī)器人已經(jīng)被廣泛應(yīng)用在多個(gè)領(lǐng)域,比如軍事、航天、醫(yī)療服務(wù)、資源勘探開發(fā)和家庭娛樂等[1-3]。作為機(jī)器人控制的關(guān)鍵技術(shù)之一[4-5],軌跡規(guī)劃旨在計(jì)劃機(jī)器人從起點(diǎn)到目標(biāo)點(diǎn)并避開障礙物的路線。由于機(jī)器人經(jīng)常工作在復(fù)雜并具有非結(jié)構(gòu)化特點(diǎn)的環(huán)境下,因此,特別需要機(jī)器人具有良好的軌跡規(guī)劃能力以應(yīng)對多變的工作環(huán)境[6-7]。隨著機(jī)器人工作環(huán)境的非結(jié)構(gòu)化程度不斷加深,機(jī)器人智能化要求不斷提高,更加迫切需要機(jī)器人可以很好地自主規(guī)劃軌跡。
多年來,許多研究者已經(jīng)提出了不同的軌跡規(guī)劃方法,而且這些方法已經(jīng)不同程度地應(yīng)用到了機(jī)器人領(lǐng)域。Piazzi等人[8]提出了全局最小加加速度的軌跡規(guī)劃方法,該方法所規(guī)劃的軌跡與人類關(guān)節(jié)運(yùn)動具有理想的相似性。Liu等人[9]基于動力學(xué)方程建立目標(biāo)函數(shù),從而使機(jī)器人以最小的成本沿著指定的幾何路徑移動。Saramago 等人[10]提出了一種基于有障礙環(huán)境的最佳運(yùn)動軌跡方法,該方法考慮了機(jī)器人非線性動力學(xué)、執(zhí)行器約束、關(guān)節(jié)限制和避障等因素。但這些軌跡規(guī)劃方法都是在已知的工作環(huán)境下實(shí)現(xiàn)的,無法應(yīng)用于未知的環(huán)境,如何提高機(jī)器人對工作環(huán)境的適應(yīng)性成為了軌跡規(guī)劃研究的一個(gè)難點(diǎn)[11-13]。
隨著深度強(qiáng)化學(xué)習(xí)方法的不斷成熟,研究人員利用其強(qiáng)大的學(xué)習(xí)能力,開始將深度強(qiáng)化學(xué)習(xí)與機(jī)器人軌跡規(guī)劃任務(wù)相結(jié)合,并相繼提出了各種深度學(xué)習(xí)強(qiáng)化方法,例如DQN[14]、DoubleDQN[15]、DuelingDQN[16]、Rainbow[17]等。但是早期的深度強(qiáng)化學(xué)習(xí)方法大多基于離散的動作空間,無法應(yīng)用到類似機(jī)械臂軌跡規(guī)劃這類連續(xù)動作空間的任務(wù)上。為此,Lillicrap 等人[18]提出了深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法,該算法可以學(xué)習(xí)高維、連續(xù)動作空間的策略,使深度強(qiáng)化學(xué)習(xí)方法成功應(yīng)用到機(jī)械臂軌跡規(guī)劃任務(wù)中。但是由于訓(xùn)練成本比較大并且只能利用歷史策略采集而來的數(shù)據(jù)進(jìn)行策略更新,Mnih 等人[19]創(chuàng)新性地通過異步梯度下降法更新參數(shù),提出了異步的優(yōu)勢行動者評論家算法(asynchronous advantage actor-critic,A3C)。A3C 使用多線程并行計(jì)算,在強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,并行地訓(xùn)練多個(gè)智能體,這樣智能體可以在同一時(shí)間收集到不同的狀態(tài)。與強(qiáng)化學(xué)習(xí)中的經(jīng)驗(yàn)回放技術(shù)相比,這種方法不僅占用更小的內(nèi)存,交互時(shí)間較短,而且對硬件的依賴性較低。
雖然以上的深度強(qiáng)化學(xué)習(xí)方法應(yīng)用到了軌跡規(guī)劃任務(wù)中,但是學(xué)習(xí)速度慢,時(shí)間就會變長,學(xué)習(xí)速率快又容易引起躁動。為了限制更新步長,2017 年,Heess 等人[20]提出了基于分布式近端策略優(yōu)化(distributed proximal policy optimization,DPPO)的深度強(qiáng)化學(xué)習(xí)方法。該方法采取懲罰機(jī)制,為智能體提供更合理的學(xué)習(xí)步長。但是DPPO 的獎勵函數(shù)只考慮了最終的規(guī)劃結(jié)果是否成功,沒有對軌跡規(guī)劃的中間過程設(shè)計(jì)相應(yīng)的獎勵值,導(dǎo)致這種方式在探索階段具有一定的盲目性,存在大量的無效探索。
為了解決上述問題,本文設(shè)計(jì)了一種基于語音的獎勵函數(shù),降低軌跡規(guī)劃過程中的盲目性,為基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人軌跡規(guī)劃提供參考。在具體實(shí)施時(shí),針對軌跡規(guī)劃任務(wù)設(shè)計(jì)了相應(yīng)的語音指令。在任務(wù)執(zhí)行前預(yù)先由操作員發(fā)布這些特定指令,并基于馬爾科夫鏈對操作員的語音指令進(jìn)行建模,然后設(shè)計(jì)相應(yīng)的語音獎勵函數(shù),最后將語音獎勵函數(shù)與DPPO深度強(qiáng)化學(xué)習(xí)方法相結(jié)合,為機(jī)械臂軌跡規(guī)劃提供全局指導(dǎo)信息,增強(qiáng)機(jī)械臂學(xué)習(xí)的方向性,從而有效地提升機(jī)械臂軌跡規(guī)劃的收斂速度。本文所設(shè)計(jì)的語音獎勵函數(shù)可以利用語音指導(dǎo)機(jī)械臂的軌跡規(guī)劃,準(zhǔn)確判斷機(jī)械臂所規(guī)劃的軌跡和語音指令的契合程度,從而提升機(jī)械臂軌跡規(guī)劃的性能。
機(jī)械臂通常工作在復(fù)雜的環(huán)境中,其中,環(huán)境包含障礙物是比較典型的一種。而這種情況下理想避障軌跡的四條指令是:“靠近障礙物”“避開障礙物”“靠近目標(biāo)點(diǎn)”和“到達(dá)目標(biāo)點(diǎn)”。
馬爾科夫鏈描述的是一種狀態(tài)序列,序列中的每一個(gè)狀態(tài)都是根據(jù)前面的有限個(gè)狀態(tài)得到的。利用馬爾科夫鏈進(jìn)行建模時(shí),某一狀態(tài)可以有兩種變化,轉(zhuǎn)變到另一個(gè)不同狀態(tài),或者保持當(dāng)前狀態(tài)不變[21]。
由于馬爾科夫鏈的原理與機(jī)械臂避障軌跡的四條指令吻合度較高,因此,本文將兩者結(jié)合起來,基于馬爾科夫鏈對這四條語音指令進(jìn)行獎勵函數(shù)建模,如圖1所示。當(dāng)機(jī)械臂的工作環(huán)境存在障礙物時(shí),障礙物所處的位置對于機(jī)械臂的工作是至關(guān)重要的。當(dāng)障礙物位于機(jī)械臂和目標(biāo)中間時(shí),則是障礙物位置影響軌跡規(guī)劃任務(wù)較大的典型情況。
圖1 基于馬爾科夫鏈的語音指令模型圖Fig.1 Voice command model diagram based on Markov chain
本文基于這種典型的情況設(shè)計(jì)獎勵函數(shù)。在這種情況下,首先機(jī)械臂處于靠近障礙物的狀態(tài),機(jī)械臂的運(yùn)行軌跡要保證不觸碰到障礙物的情況下靠近障礙物;然后,機(jī)械臂接近障礙物到一定程度時(shí)狀態(tài)發(fā)生轉(zhuǎn)移,機(jī)械臂狀態(tài)從靠近障礙物轉(zhuǎn)變?yōu)楸荛_障礙物,此時(shí)機(jī)械臂需要通過在障礙物兩側(cè)做弧線軌跡實(shí)現(xiàn)原先軌跡的偏離;接著,當(dāng)機(jī)械臂繞開障礙物以后,狀態(tài)會再次發(fā)生轉(zhuǎn)移,由避開障礙物狀態(tài)轉(zhuǎn)變?yōu)榭拷繕?biāo)點(diǎn)狀態(tài);最后,機(jī)械臂完全到達(dá)目標(biāo)點(diǎn)時(shí),狀態(tài)會從靠近目標(biāo)點(diǎn)跳轉(zhuǎn)成至到達(dá)目標(biāo)點(diǎn),到此完成了軌跡規(guī)劃任務(wù)。本文基于馬爾科夫鏈模型,將機(jī)械臂同障礙物和目標(biāo)點(diǎn)的相對距離作為重要參數(shù),設(shè)計(jì)了基于語音的獎勵函數(shù)。
圖2 獎勵函數(shù)示意圖Fig.2 Diagram of reward function
(1)靠近障礙物
當(dāng)機(jī)械臂處于“靠近障礙物”狀態(tài)時(shí),需要綜合考慮兩個(gè)關(guān)鍵因素。其中一個(gè)關(guān)鍵因素是機(jī)械臂的軌跡要不斷靠近障礙物,如公式(1)所示:
其中Dsafety表示機(jī)械臂的安全距離,當(dāng)機(jī)械臂的運(yùn)行軌跡滿足公式(2)時(shí),則可以認(rèn)為完成了“靠近障礙物”指令,開始實(shí)現(xiàn)狀態(tài)轉(zhuǎn)移。
(2)避開障礙物
當(dāng)機(jī)械臂執(zhí)行“避開障礙物”指令時(shí),其中最為重要的一個(gè)環(huán)節(jié)是如何安全地繞開障礙物。如圖3 顯示了最為典型的機(jī)械臂繞行障礙物的軌跡。
圖3 機(jī)械臂避障軌跡圖Fig.3 Trajectory diagram of robotic manipulator obstacle avoidance
根據(jù)圖3,本文所設(shè)計(jì)的“避開障礙物”指令的獎勵函數(shù)如公式(3)所示:
雖然DPPO方法采用懲罰項(xiàng)機(jī)制,為機(jī)械臂在未知環(huán)境中的規(guī)劃策略提供了合理的更新比例,從而有效提升了方法的性能。但是DPPO 獎勵函數(shù)只關(guān)注軌跡規(guī)劃的結(jié)果而忽略了中間過程,仍然具有盲目性、學(xué)習(xí)效率低的問題。為了提高軌跡規(guī)劃的學(xué)習(xí)效率,本文基于DPPO的方法增加了所設(shè)計(jì)的語音獎勵函數(shù)。在DPPO學(xué)習(xí)過程中,可以為DPPO提供更加具有教學(xué)性質(zhì)的獎勵值,在學(xué)習(xí)過程中通過獲得的語音獎勵函數(shù)的有效引導(dǎo),從而增強(qiáng)DPPO對環(huán)境的認(rèn)知,進(jìn)一步提高DPPO的學(xué)習(xí)效率。
基于語音獎勵函數(shù)的軌跡規(guī)劃學(xué)習(xí)過程如圖4 所示。首先對操作員的四條語音指令L進(jìn)行語音識別,并通過隨機(jī)初始化構(gòu)成智能體的策略網(wǎng)絡(luò)μ(S,L|θμ)、估值網(wǎng)絡(luò)Q(S,L,a|θQ)以及懲罰項(xiàng)KL。其中估值網(wǎng)絡(luò)負(fù)責(zé)評判動作的價(jià)值,θQ表示估值網(wǎng)絡(luò)Q的權(quán)重,策略網(wǎng)絡(luò)負(fù)責(zé)預(yù)測應(yīng)執(zhí)行的動作軌跡,θμ表示策略網(wǎng)絡(luò)μ的權(quán)重;然后使用S存儲機(jī)械臂的8個(gè)最鄰近時(shí)刻的相對距離,其中,Dobstacle表示機(jī)械臂在當(dāng)前時(shí)刻t與障礙物的相對距離,Dtarget代表機(jī)械臂在當(dāng)前時(shí)刻t與目標(biāo)點(diǎn)的相對距離。利用語音指令的全局信息和相對距離的局部信息設(shè)計(jì)獎勵函數(shù),當(dāng)相對距離滿足某一語音指令狀態(tài)時(shí),根據(jù)相對距離與語音指導(dǎo)的契合程度對機(jī)械臂進(jìn)行獎勵或懲罰,進(jìn)而獲得一定的獎勵值R,通過累計(jì)4個(gè)不同語音指令的獎勵值R,得到總體的語音獎勵函數(shù)Rvoice=F(S,L)。利用DPPO 的方法對語音獎勵函數(shù)進(jìn)行優(yōu)化,經(jīng)過對策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)的訓(xùn)練,智能體可以與環(huán)境更好地互動,不斷修正動作偏差,尋找最優(yōu)化的運(yùn)動軌跡。算法1 展示了基于語音獎勵函數(shù)的DPPO軌跡規(guī)劃方法偽代碼。
圖4 基于語音獎勵函數(shù)的軌跡規(guī)劃框架圖Fig.4 Framework diagram of trajectory planning based on voice reward function
算法1 基于語音獎勵函數(shù)的DPPO 機(jī)械臂軌跡規(guī)劃方法
本文基于科大訊飛AIUI評估板作為語音識別的載體。搭載了AIUI的評估板提供了一套開發(fā)任務(wù)型對話的解決方案,開發(fā)者可以通過在平臺編寫自定義技能,實(shí)現(xiàn)自身所需要的語音識別功能。本文基于AIUI評估板提供的SDK,開發(fā)了可供機(jī)械臂進(jìn)行軌跡規(guī)劃的語音識別功能。
為了驗(yàn)證基于語音獎勵函數(shù)的DPPO 軌跡規(guī)劃方法的性能,本文設(shè)計(jì)了兩組實(shí)驗(yàn)。在第一組實(shí)驗(yàn)中,對比了基本的DPPO 方法和基于語音獎勵函數(shù)的DPPO方法,通過比較收斂速度和獎勵值的均值與標(biāo)準(zhǔn)差驗(yàn)證所設(shè)計(jì)語音獎勵函數(shù)的有效性。第二組實(shí)驗(yàn)將基于語音獎勵函數(shù)的DPPO 方法和當(dāng)前主流的深度強(qiáng)化學(xué)習(xí)方法DDPG 和A3C 進(jìn)行了比較,對基于語音獎勵函數(shù)DPPO方法的魯棒性和學(xué)習(xí)效率進(jìn)行進(jìn)一步驗(yàn)證。
本文所有實(shí)驗(yàn)均設(shè)置在難度不同的兩種未知環(huán)境中,且都存在障礙物,并利用V-REP 環(huán)境進(jìn)行仿真。如圖5展示了兩個(gè)不同的未知工作環(huán)境,工作環(huán)境包含桌子、UR3 機(jī)械臂、圓柱形障礙物以及球形目標(biāo)點(diǎn)。其中在工作環(huán)境A 中,一個(gè)障礙物離目標(biāo)稍遠(yuǎn),表示對規(guī)劃任務(wù)干擾較小。對于工作環(huán)境B,在距離目標(biāo)更近的位置放有兩個(gè)障礙物,在這種情況下,軌跡規(guī)劃需要考慮兩個(gè)障礙物之間的距離,而障礙物之間距離的不同會影響安全距離。與環(huán)境A相比較,兩個(gè)障礙物對規(guī)劃任務(wù)的干擾較大。在以下所有實(shí)驗(yàn)中,均設(shè)置獎勵最大值為2 000,當(dāng)獎勵值穩(wěn)定達(dá)到該上限的90%時(shí),可以認(rèn)為完成了軌跡規(guī)劃任務(wù)。
圖5 機(jī)械臂工作環(huán)境圖Fig.5 Working environment diagram of robot arm
表1顯示了本文的實(shí)驗(yàn)環(huán)境配置。
表1 實(shí)驗(yàn)環(huán)境配置Table 1 Configuration of experimental environment
本文在兩種不同工作環(huán)境中都進(jìn)行了30次重復(fù)實(shí)驗(yàn),每次實(shí)驗(yàn)前都隨機(jī)初始化障礙物的位置。為了進(jìn)行魯棒性對比,表2 展示了是否使用語音獎勵函數(shù)的DPPO 方法收斂之后獲得獎勵值的均值和需要幕數(shù)的均值,并在圖6中繪制了相應(yīng)的獎勵函數(shù)曲線圖用于學(xué)習(xí)效率的評估。
表2 DPPO是否使用語音獎勵函數(shù)對比Table 2 Comparison of whether DPPO uses voice reward function
圖6 DPPO獎勵函數(shù)曲線圖Fig.6 Curve of DPPO reward function
根據(jù)圖6 可以看出,在兩種工作環(huán)境中,基于語音獎勵函數(shù)的DPPO 軌跡規(guī)劃方法的收斂速度明顯優(yōu)于基本的DPPO方法,并且值得注意的是,在學(xué)習(xí)前期,基于語音獎勵函數(shù)的規(guī)劃方法有更加明顯的提升效果。這是由于在學(xué)習(xí)的初級階段,DPPO并不了解需要執(zhí)行的任務(wù),當(dāng)在這個(gè)時(shí)期得到關(guān)于語音的指導(dǎo)時(shí),DPPO則會很快地了解任務(wù),從而提升DPPO的收斂速度。而在學(xué)習(xí)后期,智能體可以自主學(xué)習(xí)規(guī)劃軌跡任務(wù),相比學(xué)習(xí)初期,語音指導(dǎo)的重要性降低,所以后期基于語音獎勵函數(shù)的DPPO方法與基本方法相比,學(xué)習(xí)效率提升相似。圖6 的工作環(huán)境B 中表明高難度的工作環(huán)境對軌跡規(guī)劃任務(wù)造成了一定的困擾,但是和基本的DPPO方法相比,基于語音獎勵函數(shù)的DPPO軌跡規(guī)劃方法收斂速度更快,這是因?yàn)榛谡Z音獎勵函數(shù)的DPPO軌跡規(guī)劃方法通過語音的指導(dǎo),減少了高難度工作環(huán)境對軌跡規(guī)劃造成的影響,因此仍然能夠保持比較快的收斂速度。
表2更加直接地表明了基于語音獎勵函數(shù)的DPPO方法與基本方法相比具有更高的學(xué)習(xí)效率,在較少的幕數(shù)下獲得了更大的獎勵值,相比基本的DPPO 方法,收斂速度提高了43.8%,并且,基于語音獎勵函數(shù)的DPPO方法的魯棒性更好,其中,均值有1.95%的提升,標(biāo)準(zhǔn)差下降了32.2%。
根據(jù)實(shí)驗(yàn)1可以證明,在兩種不同難度的未知工作環(huán)境中,基于語音獎勵函數(shù)的DPPO方法可以保持更好的性能,與基本的DPPO 方法相比,收斂速度提高了43.8%,而且魯棒性更好。
為了進(jìn)一步驗(yàn)證本文所提出的基于語音獎勵函數(shù)的DPPO方法的有效性,本節(jié)將所設(shè)計(jì)方法與當(dāng)前主流的深度強(qiáng)化學(xué)習(xí)方法DDPG 和A3C 方法在學(xué)習(xí)效率與魯棒性兩個(gè)方面進(jìn)行了對比。
(1)與DDPG方法的對比
如圖7繪制了在環(huán)境A中,基于DDPG 的方法是否使用語音獎勵函數(shù)的獎勵曲線圖,并在表3中統(tǒng)計(jì)了相應(yīng)獎勵值的均值和標(biāo)準(zhǔn)差。可以看出,由于DDPG方法學(xué)習(xí)能力有限,在工作環(huán)境B 中經(jīng)過長時(shí)間的訓(xùn)練,DDPG仍然沒有收斂。因此,下文所設(shè)計(jì)的實(shí)驗(yàn)僅基于實(shí)驗(yàn)環(huán)境A和DDPG方法進(jìn)行對比。
圖7 DDPG獎勵函數(shù)曲線圖Fig.7 Curve of DPPG reward function
表3 DDPG是否使用語音獎勵函數(shù)對比Table 3 Comparison of whether DPPG uses voice reward function
圖7 表明,在學(xué)習(xí)效率方面,基于語音獎勵函數(shù)的DDPG軌跡規(guī)劃方法明顯優(yōu)于基本的DDPG方法,與基本DDPG 方法相比收斂速度也有25.7%的提升,并且基于語音獎勵函數(shù)的DDPG方法魯棒性更好,其中獎勵均值有7.5%的提高,而標(biāo)準(zhǔn)差也下降了14.8%。
由圖6和圖7可以看出,在收斂速度方面,基于語音獎勵函數(shù)的DPPO 方法均優(yōu)于基本的DDPG 方法和基于語音獎勵函數(shù)的DDPG方法,在較少的幕數(shù)下獲得了更大的獎勵值。在收斂速度方面,與基本的DDPG方法相比,基于語音獎勵函數(shù)的DPPO方法快了21倍左右。
表2和表3總體上表明,基于語音獎勵函數(shù)的DPPO方法具有更好的魯棒性。與基于語音獎勵函數(shù)的DDPG方法相比,獎勵均值提升了6.5%,標(biāo)準(zhǔn)差下降了66.9%。
根據(jù)上述可得,本文所設(shè)計(jì)的語音獎勵函數(shù)具有一定的適應(yīng)性,同樣適用于DDPG 方法。通過DDPG 和DPPO 方法的對比,進(jìn)一步說明,基于語音獎勵函數(shù)的DPPO 方法相比DDPG 方法具有更高效的性能,并且魯棒性更好。
(2)與A3C方法的對比
如圖8 所示繪制了兩種環(huán)境下基于A3C 方法的獎勵曲線圖,并在表4中對所獲獎勵值的均值和標(biāo)準(zhǔn)差進(jìn)行了統(tǒng)計(jì)。
圖8 A3C獎勵函數(shù)曲線圖Fig.8 Carve of A3C reward function
表4 A3C是否使用語音獎勵函數(shù)對比表Table 4 Comparison of whether A3C uses voice rewardfunction
圖8 顯示,在兩種工作環(huán)境中,將A3C 方法與本章所設(shè)計(jì)的語音獎勵函數(shù)結(jié)合后,與基本的A3C 方法相比,具有更高的學(xué)習(xí)效率。在難度相對較低的工作環(huán)境A中,基于語音獎勵函數(shù)的A3C方法相比基本的A3C方法收斂速度提升了62.1%,即使在較高難度的工作環(huán)境下,基于語音獎勵函數(shù)的A3C方法收斂速度也有40.2%的提升。
結(jié)合圖7和圖8可以看出,在兩種不同工作環(huán)境下,基于語音獎勵函數(shù)的DPPO 方法在收斂速度方面均優(yōu)于基本的A3C 方法。其中在工作環(huán)境A 中收斂速度提升了24%,在工作環(huán)境B中收斂速度提升了60.8%。
通過表2 和表4 對比可知,基于語音獎勵函數(shù)的DPPO方法與A3C方法相比不僅收斂速度更快,而且魯棒性更好。其中在工作環(huán)境A中,基于語音獎勵函數(shù)的DPPO方法均值與A3C方法相比提高了3.1%,標(biāo)準(zhǔn)差下降了27.7%,在工作環(huán)境B中,均值提高了4.6%,標(biāo)準(zhǔn)差下降了52.8%。
在不同環(huán)境下,對基于語音獎勵函數(shù)的DDPO、DDPG、A3C 方法進(jìn)行30 次重復(fù)實(shí)驗(yàn)后,本節(jié)對不同方法所獲獎勵值的均值、標(biāo)準(zhǔn)差以及收斂需要的幕數(shù),進(jìn)行了可視化分析。如圖9 和圖10 所示,其中,縱坐標(biāo)分別為獎勵值和幕數(shù)??梢钥闯?,在本文所設(shè)計(jì)的對比實(shí)驗(yàn)下,本文所提出的基于語音獎勵函數(shù)的軌跡規(guī)劃方法,在不同的工作環(huán)境中相比其他方法均取得了較高的學(xué)習(xí)效率和較好的魯棒性。
圖9 獎勵值可視化對比Fig.9 Visual comparison of reward values
圖10 幕數(shù)可視化對比Fig.10 Visual comparison of number of acts
本文提出了一種基于語音獎勵函數(shù)的機(jī)械臂軌跡規(guī)劃方法。通過設(shè)計(jì)一種語音獎勵函數(shù),有效地解決了無效探索導(dǎo)致學(xué)習(xí)效率偏低的問題。將DPPO 方法用于未知工作環(huán)境中的機(jī)械臂軌跡規(guī)劃任務(wù),提高了規(guī)劃策略的魯棒性。實(shí)驗(yàn)證明本文提出的基于語音獎勵函數(shù)的DPPO 方法在不同難度的未知工作環(huán)境中均取得了良好的效果,學(xué)習(xí)效率更高,具有很高的適用性。但是僅能實(shí)現(xiàn)單一目標(biāo)點(diǎn)的機(jī)械臂軌跡規(guī)劃,而在真實(shí)工作環(huán)境中,有些任務(wù)的目標(biāo)點(diǎn)為多個(gè)。未來考慮將本文方法推廣到多目標(biāo)軌跡規(guī)劃。