• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向機(jī)械臂軌跡規(guī)劃的強(qiáng)化學(xué)習(xí)獎勵函數(shù)設(shè)計(jì)

    2022-10-18 01:52:28靳棟銀邵振洲施智平
    關(guān)鍵詞:機(jī)械規(guī)劃環(huán)境

    靳棟銀,李 躍,邵振洲,施智平,關(guān) 永,4

    1.首都師范大學(xué) 信息工程學(xué)院,北京 100048

    2.首都師范大學(xué) 輕型工業(yè)機(jī)械臂與安全驗(yàn)證北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048

    3.河北工業(yè)職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)技術(shù)系,石家莊 050000

    4.首都師范大學(xué) 成像技術(shù)北京市高精尖創(chuàng)新中心,北京 100048

    現(xiàn)如今,隨著信息化和工業(yè)化的不斷融合,機(jī)器人技術(shù)飛速發(fā)展,機(jī)器人已經(jīng)被廣泛應(yīng)用在多個(gè)領(lǐng)域,比如軍事、航天、醫(yī)療服務(wù)、資源勘探開發(fā)和家庭娛樂等[1-3]。作為機(jī)器人控制的關(guān)鍵技術(shù)之一[4-5],軌跡規(guī)劃旨在計(jì)劃機(jī)器人從起點(diǎn)到目標(biāo)點(diǎn)并避開障礙物的路線。由于機(jī)器人經(jīng)常工作在復(fù)雜并具有非結(jié)構(gòu)化特點(diǎn)的環(huán)境下,因此,特別需要機(jī)器人具有良好的軌跡規(guī)劃能力以應(yīng)對多變的工作環(huán)境[6-7]。隨著機(jī)器人工作環(huán)境的非結(jié)構(gòu)化程度不斷加深,機(jī)器人智能化要求不斷提高,更加迫切需要機(jī)器人可以很好地自主規(guī)劃軌跡。

    多年來,許多研究者已經(jīng)提出了不同的軌跡規(guī)劃方法,而且這些方法已經(jīng)不同程度地應(yīng)用到了機(jī)器人領(lǐng)域。Piazzi等人[8]提出了全局最小加加速度的軌跡規(guī)劃方法,該方法所規(guī)劃的軌跡與人類關(guān)節(jié)運(yùn)動具有理想的相似性。Liu等人[9]基于動力學(xué)方程建立目標(biāo)函數(shù),從而使機(jī)器人以最小的成本沿著指定的幾何路徑移動。Saramago 等人[10]提出了一種基于有障礙環(huán)境的最佳運(yùn)動軌跡方法,該方法考慮了機(jī)器人非線性動力學(xué)、執(zhí)行器約束、關(guān)節(jié)限制和避障等因素。但這些軌跡規(guī)劃方法都是在已知的工作環(huán)境下實(shí)現(xiàn)的,無法應(yīng)用于未知的環(huán)境,如何提高機(jī)器人對工作環(huán)境的適應(yīng)性成為了軌跡規(guī)劃研究的一個(gè)難點(diǎn)[11-13]。

    隨著深度強(qiáng)化學(xué)習(xí)方法的不斷成熟,研究人員利用其強(qiáng)大的學(xué)習(xí)能力,開始將深度強(qiáng)化學(xué)習(xí)與機(jī)器人軌跡規(guī)劃任務(wù)相結(jié)合,并相繼提出了各種深度學(xué)習(xí)強(qiáng)化方法,例如DQN[14]、DoubleDQN[15]、DuelingDQN[16]、Rainbow[17]等。但是早期的深度強(qiáng)化學(xué)習(xí)方法大多基于離散的動作空間,無法應(yīng)用到類似機(jī)械臂軌跡規(guī)劃這類連續(xù)動作空間的任務(wù)上。為此,Lillicrap 等人[18]提出了深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法,該算法可以學(xué)習(xí)高維、連續(xù)動作空間的策略,使深度強(qiáng)化學(xué)習(xí)方法成功應(yīng)用到機(jī)械臂軌跡規(guī)劃任務(wù)中。但是由于訓(xùn)練成本比較大并且只能利用歷史策略采集而來的數(shù)據(jù)進(jìn)行策略更新,Mnih 等人[19]創(chuàng)新性地通過異步梯度下降法更新參數(shù),提出了異步的優(yōu)勢行動者評論家算法(asynchronous advantage actor-critic,A3C)。A3C 使用多線程并行計(jì)算,在強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,并行地訓(xùn)練多個(gè)智能體,這樣智能體可以在同一時(shí)間收集到不同的狀態(tài)。與強(qiáng)化學(xué)習(xí)中的經(jīng)驗(yàn)回放技術(shù)相比,這種方法不僅占用更小的內(nèi)存,交互時(shí)間較短,而且對硬件的依賴性較低。

    雖然以上的深度強(qiáng)化學(xué)習(xí)方法應(yīng)用到了軌跡規(guī)劃任務(wù)中,但是學(xué)習(xí)速度慢,時(shí)間就會變長,學(xué)習(xí)速率快又容易引起躁動。為了限制更新步長,2017 年,Heess 等人[20]提出了基于分布式近端策略優(yōu)化(distributed proximal policy optimization,DPPO)的深度強(qiáng)化學(xué)習(xí)方法。該方法采取懲罰機(jī)制,為智能體提供更合理的學(xué)習(xí)步長。但是DPPO 的獎勵函數(shù)只考慮了最終的規(guī)劃結(jié)果是否成功,沒有對軌跡規(guī)劃的中間過程設(shè)計(jì)相應(yīng)的獎勵值,導(dǎo)致這種方式在探索階段具有一定的盲目性,存在大量的無效探索。

    為了解決上述問題,本文設(shè)計(jì)了一種基于語音的獎勵函數(shù),降低軌跡規(guī)劃過程中的盲目性,為基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人軌跡規(guī)劃提供參考。在具體實(shí)施時(shí),針對軌跡規(guī)劃任務(wù)設(shè)計(jì)了相應(yīng)的語音指令。在任務(wù)執(zhí)行前預(yù)先由操作員發(fā)布這些特定指令,并基于馬爾科夫鏈對操作員的語音指令進(jìn)行建模,然后設(shè)計(jì)相應(yīng)的語音獎勵函數(shù),最后將語音獎勵函數(shù)與DPPO深度強(qiáng)化學(xué)習(xí)方法相結(jié)合,為機(jī)械臂軌跡規(guī)劃提供全局指導(dǎo)信息,增強(qiáng)機(jī)械臂學(xué)習(xí)的方向性,從而有效地提升機(jī)械臂軌跡規(guī)劃的收斂速度。本文所設(shè)計(jì)的語音獎勵函數(shù)可以利用語音指導(dǎo)機(jī)械臂的軌跡規(guī)劃,準(zhǔn)確判斷機(jī)械臂所規(guī)劃的軌跡和語音指令的契合程度,從而提升機(jī)械臂軌跡規(guī)劃的性能。

    1 語音獎勵函數(shù)設(shè)計(jì)

    機(jī)械臂通常工作在復(fù)雜的環(huán)境中,其中,環(huán)境包含障礙物是比較典型的一種。而這種情況下理想避障軌跡的四條指令是:“靠近障礙物”“避開障礙物”“靠近目標(biāo)點(diǎn)”和“到達(dá)目標(biāo)點(diǎn)”。

    馬爾科夫鏈描述的是一種狀態(tài)序列,序列中的每一個(gè)狀態(tài)都是根據(jù)前面的有限個(gè)狀態(tài)得到的。利用馬爾科夫鏈進(jìn)行建模時(shí),某一狀態(tài)可以有兩種變化,轉(zhuǎn)變到另一個(gè)不同狀態(tài),或者保持當(dāng)前狀態(tài)不變[21]。

    由于馬爾科夫鏈的原理與機(jī)械臂避障軌跡的四條指令吻合度較高,因此,本文將兩者結(jié)合起來,基于馬爾科夫鏈對這四條語音指令進(jìn)行獎勵函數(shù)建模,如圖1所示。當(dāng)機(jī)械臂的工作環(huán)境存在障礙物時(shí),障礙物所處的位置對于機(jī)械臂的工作是至關(guān)重要的。當(dāng)障礙物位于機(jī)械臂和目標(biāo)中間時(shí),則是障礙物位置影響軌跡規(guī)劃任務(wù)較大的典型情況。

    圖1 基于馬爾科夫鏈的語音指令模型圖Fig.1 Voice command model diagram based on Markov chain

    本文基于這種典型的情況設(shè)計(jì)獎勵函數(shù)。在這種情況下,首先機(jī)械臂處于靠近障礙物的狀態(tài),機(jī)械臂的運(yùn)行軌跡要保證不觸碰到障礙物的情況下靠近障礙物;然后,機(jī)械臂接近障礙物到一定程度時(shí)狀態(tài)發(fā)生轉(zhuǎn)移,機(jī)械臂狀態(tài)從靠近障礙物轉(zhuǎn)變?yōu)楸荛_障礙物,此時(shí)機(jī)械臂需要通過在障礙物兩側(cè)做弧線軌跡實(shí)現(xiàn)原先軌跡的偏離;接著,當(dāng)機(jī)械臂繞開障礙物以后,狀態(tài)會再次發(fā)生轉(zhuǎn)移,由避開障礙物狀態(tài)轉(zhuǎn)變?yōu)榭拷繕?biāo)點(diǎn)狀態(tài);最后,機(jī)械臂完全到達(dá)目標(biāo)點(diǎn)時(shí),狀態(tài)會從靠近目標(biāo)點(diǎn)跳轉(zhuǎn)成至到達(dá)目標(biāo)點(diǎn),到此完成了軌跡規(guī)劃任務(wù)。本文基于馬爾科夫鏈模型,將機(jī)械臂同障礙物和目標(biāo)點(diǎn)的相對距離作為重要參數(shù),設(shè)計(jì)了基于語音的獎勵函數(shù)。

    圖2 獎勵函數(shù)示意圖Fig.2 Diagram of reward function

    (1)靠近障礙物

    當(dāng)機(jī)械臂處于“靠近障礙物”狀態(tài)時(shí),需要綜合考慮兩個(gè)關(guān)鍵因素。其中一個(gè)關(guān)鍵因素是機(jī)械臂的軌跡要不斷靠近障礙物,如公式(1)所示:

    其中Dsafety表示機(jī)械臂的安全距離,當(dāng)機(jī)械臂的運(yùn)行軌跡滿足公式(2)時(shí),則可以認(rèn)為完成了“靠近障礙物”指令,開始實(shí)現(xiàn)狀態(tài)轉(zhuǎn)移。

    (2)避開障礙物

    當(dāng)機(jī)械臂執(zhí)行“避開障礙物”指令時(shí),其中最為重要的一個(gè)環(huán)節(jié)是如何安全地繞開障礙物。如圖3 顯示了最為典型的機(jī)械臂繞行障礙物的軌跡。

    圖3 機(jī)械臂避障軌跡圖Fig.3 Trajectory diagram of robotic manipulator obstacle avoidance

    根據(jù)圖3,本文所設(shè)計(jì)的“避開障礙物”指令的獎勵函數(shù)如公式(3)所示:

    2 基于語音獎勵函數(shù)的DPPO軌跡規(guī)劃

    雖然DPPO方法采用懲罰項(xiàng)機(jī)制,為機(jī)械臂在未知環(huán)境中的規(guī)劃策略提供了合理的更新比例,從而有效提升了方法的性能。但是DPPO 獎勵函數(shù)只關(guān)注軌跡規(guī)劃的結(jié)果而忽略了中間過程,仍然具有盲目性、學(xué)習(xí)效率低的問題。為了提高軌跡規(guī)劃的學(xué)習(xí)效率,本文基于DPPO的方法增加了所設(shè)計(jì)的語音獎勵函數(shù)。在DPPO學(xué)習(xí)過程中,可以為DPPO提供更加具有教學(xué)性質(zhì)的獎勵值,在學(xué)習(xí)過程中通過獲得的語音獎勵函數(shù)的有效引導(dǎo),從而增強(qiáng)DPPO對環(huán)境的認(rèn)知,進(jìn)一步提高DPPO的學(xué)習(xí)效率。

    基于語音獎勵函數(shù)的軌跡規(guī)劃學(xué)習(xí)過程如圖4 所示。首先對操作員的四條語音指令L進(jìn)行語音識別,并通過隨機(jī)初始化構(gòu)成智能體的策略網(wǎng)絡(luò)μ(S,L|θμ)、估值網(wǎng)絡(luò)Q(S,L,a|θQ)以及懲罰項(xiàng)KL。其中估值網(wǎng)絡(luò)負(fù)責(zé)評判動作的價(jià)值,θQ表示估值網(wǎng)絡(luò)Q的權(quán)重,策略網(wǎng)絡(luò)負(fù)責(zé)預(yù)測應(yīng)執(zhí)行的動作軌跡,θμ表示策略網(wǎng)絡(luò)μ的權(quán)重;然后使用S存儲機(jī)械臂的8個(gè)最鄰近時(shí)刻的相對距離,其中,Dobstacle表示機(jī)械臂在當(dāng)前時(shí)刻t與障礙物的相對距離,Dtarget代表機(jī)械臂在當(dāng)前時(shí)刻t與目標(biāo)點(diǎn)的相對距離。利用語音指令的全局信息和相對距離的局部信息設(shè)計(jì)獎勵函數(shù),當(dāng)相對距離滿足某一語音指令狀態(tài)時(shí),根據(jù)相對距離與語音指導(dǎo)的契合程度對機(jī)械臂進(jìn)行獎勵或懲罰,進(jìn)而獲得一定的獎勵值R,通過累計(jì)4個(gè)不同語音指令的獎勵值R,得到總體的語音獎勵函數(shù)Rvoice=F(S,L)。利用DPPO 的方法對語音獎勵函數(shù)進(jìn)行優(yōu)化,經(jīng)過對策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)的訓(xùn)練,智能體可以與環(huán)境更好地互動,不斷修正動作偏差,尋找最優(yōu)化的運(yùn)動軌跡。算法1 展示了基于語音獎勵函數(shù)的DPPO軌跡規(guī)劃方法偽代碼。

    圖4 基于語音獎勵函數(shù)的軌跡規(guī)劃框架圖Fig.4 Framework diagram of trajectory planning based on voice reward function

    算法1 基于語音獎勵函數(shù)的DPPO 機(jī)械臂軌跡規(guī)劃方法

    3 實(shí)驗(yàn)結(jié)果與分析

    本文基于科大訊飛AIUI評估板作為語音識別的載體。搭載了AIUI的評估板提供了一套開發(fā)任務(wù)型對話的解決方案,開發(fā)者可以通過在平臺編寫自定義技能,實(shí)現(xiàn)自身所需要的語音識別功能。本文基于AIUI評估板提供的SDK,開發(fā)了可供機(jī)械臂進(jìn)行軌跡規(guī)劃的語音識別功能。

    為了驗(yàn)證基于語音獎勵函數(shù)的DPPO 軌跡規(guī)劃方法的性能,本文設(shè)計(jì)了兩組實(shí)驗(yàn)。在第一組實(shí)驗(yàn)中,對比了基本的DPPO 方法和基于語音獎勵函數(shù)的DPPO方法,通過比較收斂速度和獎勵值的均值與標(biāo)準(zhǔn)差驗(yàn)證所設(shè)計(jì)語音獎勵函數(shù)的有效性。第二組實(shí)驗(yàn)將基于語音獎勵函數(shù)的DPPO 方法和當(dāng)前主流的深度強(qiáng)化學(xué)習(xí)方法DDPG 和A3C 進(jìn)行了比較,對基于語音獎勵函數(shù)DPPO方法的魯棒性和學(xué)習(xí)效率進(jìn)行進(jìn)一步驗(yàn)證。

    本文所有實(shí)驗(yàn)均設(shè)置在難度不同的兩種未知環(huán)境中,且都存在障礙物,并利用V-REP 環(huán)境進(jìn)行仿真。如圖5展示了兩個(gè)不同的未知工作環(huán)境,工作環(huán)境包含桌子、UR3 機(jī)械臂、圓柱形障礙物以及球形目標(biāo)點(diǎn)。其中在工作環(huán)境A 中,一個(gè)障礙物離目標(biāo)稍遠(yuǎn),表示對規(guī)劃任務(wù)干擾較小。對于工作環(huán)境B,在距離目標(biāo)更近的位置放有兩個(gè)障礙物,在這種情況下,軌跡規(guī)劃需要考慮兩個(gè)障礙物之間的距離,而障礙物之間距離的不同會影響安全距離。與環(huán)境A相比較,兩個(gè)障礙物對規(guī)劃任務(wù)的干擾較大。在以下所有實(shí)驗(yàn)中,均設(shè)置獎勵最大值為2 000,當(dāng)獎勵值穩(wěn)定達(dá)到該上限的90%時(shí),可以認(rèn)為完成了軌跡規(guī)劃任務(wù)。

    圖5 機(jī)械臂工作環(huán)境圖Fig.5 Working environment diagram of robot arm

    表1顯示了本文的實(shí)驗(yàn)環(huán)境配置。

    表1 實(shí)驗(yàn)環(huán)境配置Table 1 Configuration of experimental environment

    3.1 基于語音獎勵函數(shù)的DPPO性能分析

    本文在兩種不同工作環(huán)境中都進(jìn)行了30次重復(fù)實(shí)驗(yàn),每次實(shí)驗(yàn)前都隨機(jī)初始化障礙物的位置。為了進(jìn)行魯棒性對比,表2 展示了是否使用語音獎勵函數(shù)的DPPO 方法收斂之后獲得獎勵值的均值和需要幕數(shù)的均值,并在圖6中繪制了相應(yīng)的獎勵函數(shù)曲線圖用于學(xué)習(xí)效率的評估。

    表2 DPPO是否使用語音獎勵函數(shù)對比Table 2 Comparison of whether DPPO uses voice reward function

    圖6 DPPO獎勵函數(shù)曲線圖Fig.6 Curve of DPPO reward function

    根據(jù)圖6 可以看出,在兩種工作環(huán)境中,基于語音獎勵函數(shù)的DPPO 軌跡規(guī)劃方法的收斂速度明顯優(yōu)于基本的DPPO方法,并且值得注意的是,在學(xué)習(xí)前期,基于語音獎勵函數(shù)的規(guī)劃方法有更加明顯的提升效果。這是由于在學(xué)習(xí)的初級階段,DPPO并不了解需要執(zhí)行的任務(wù),當(dāng)在這個(gè)時(shí)期得到關(guān)于語音的指導(dǎo)時(shí),DPPO則會很快地了解任務(wù),從而提升DPPO的收斂速度。而在學(xué)習(xí)后期,智能體可以自主學(xué)習(xí)規(guī)劃軌跡任務(wù),相比學(xué)習(xí)初期,語音指導(dǎo)的重要性降低,所以后期基于語音獎勵函數(shù)的DPPO方法與基本方法相比,學(xué)習(xí)效率提升相似。圖6 的工作環(huán)境B 中表明高難度的工作環(huán)境對軌跡規(guī)劃任務(wù)造成了一定的困擾,但是和基本的DPPO方法相比,基于語音獎勵函數(shù)的DPPO軌跡規(guī)劃方法收斂速度更快,這是因?yàn)榛谡Z音獎勵函數(shù)的DPPO軌跡規(guī)劃方法通過語音的指導(dǎo),減少了高難度工作環(huán)境對軌跡規(guī)劃造成的影響,因此仍然能夠保持比較快的收斂速度。

    表2更加直接地表明了基于語音獎勵函數(shù)的DPPO方法與基本方法相比具有更高的學(xué)習(xí)效率,在較少的幕數(shù)下獲得了更大的獎勵值,相比基本的DPPO 方法,收斂速度提高了43.8%,并且,基于語音獎勵函數(shù)的DPPO方法的魯棒性更好,其中,均值有1.95%的提升,標(biāo)準(zhǔn)差下降了32.2%。

    根據(jù)實(shí)驗(yàn)1可以證明,在兩種不同難度的未知工作環(huán)境中,基于語音獎勵函數(shù)的DPPO方法可以保持更好的性能,與基本的DPPO 方法相比,收斂速度提高了43.8%,而且魯棒性更好。

    3.2 不同深度強(qiáng)化學(xué)習(xí)方法的性能對比

    為了進(jìn)一步驗(yàn)證本文所提出的基于語音獎勵函數(shù)的DPPO方法的有效性,本節(jié)將所設(shè)計(jì)方法與當(dāng)前主流的深度強(qiáng)化學(xué)習(xí)方法DDPG 和A3C 方法在學(xué)習(xí)效率與魯棒性兩個(gè)方面進(jìn)行了對比。

    (1)與DDPG方法的對比

    如圖7繪制了在環(huán)境A中,基于DDPG 的方法是否使用語音獎勵函數(shù)的獎勵曲線圖,并在表3中統(tǒng)計(jì)了相應(yīng)獎勵值的均值和標(biāo)準(zhǔn)差。可以看出,由于DDPG方法學(xué)習(xí)能力有限,在工作環(huán)境B 中經(jīng)過長時(shí)間的訓(xùn)練,DDPG仍然沒有收斂。因此,下文所設(shè)計(jì)的實(shí)驗(yàn)僅基于實(shí)驗(yàn)環(huán)境A和DDPG方法進(jìn)行對比。

    圖7 DDPG獎勵函數(shù)曲線圖Fig.7 Curve of DPPG reward function

    表3 DDPG是否使用語音獎勵函數(shù)對比Table 3 Comparison of whether DPPG uses voice reward function

    圖7 表明,在學(xué)習(xí)效率方面,基于語音獎勵函數(shù)的DDPG軌跡規(guī)劃方法明顯優(yōu)于基本的DDPG方法,與基本DDPG 方法相比收斂速度也有25.7%的提升,并且基于語音獎勵函數(shù)的DDPG方法魯棒性更好,其中獎勵均值有7.5%的提高,而標(biāo)準(zhǔn)差也下降了14.8%。

    由圖6和圖7可以看出,在收斂速度方面,基于語音獎勵函數(shù)的DPPO 方法均優(yōu)于基本的DDPG 方法和基于語音獎勵函數(shù)的DDPG方法,在較少的幕數(shù)下獲得了更大的獎勵值。在收斂速度方面,與基本的DDPG方法相比,基于語音獎勵函數(shù)的DPPO方法快了21倍左右。

    表2和表3總體上表明,基于語音獎勵函數(shù)的DPPO方法具有更好的魯棒性。與基于語音獎勵函數(shù)的DDPG方法相比,獎勵均值提升了6.5%,標(biāo)準(zhǔn)差下降了66.9%。

    根據(jù)上述可得,本文所設(shè)計(jì)的語音獎勵函數(shù)具有一定的適應(yīng)性,同樣適用于DDPG 方法。通過DDPG 和DPPO 方法的對比,進(jìn)一步說明,基于語音獎勵函數(shù)的DPPO 方法相比DDPG 方法具有更高效的性能,并且魯棒性更好。

    (2)與A3C方法的對比

    如圖8 所示繪制了兩種環(huán)境下基于A3C 方法的獎勵曲線圖,并在表4中對所獲獎勵值的均值和標(biāo)準(zhǔn)差進(jìn)行了統(tǒng)計(jì)。

    圖8 A3C獎勵函數(shù)曲線圖Fig.8 Carve of A3C reward function

    表4 A3C是否使用語音獎勵函數(shù)對比表Table 4 Comparison of whether A3C uses voice rewardfunction

    圖8 顯示,在兩種工作環(huán)境中,將A3C 方法與本章所設(shè)計(jì)的語音獎勵函數(shù)結(jié)合后,與基本的A3C 方法相比,具有更高的學(xué)習(xí)效率。在難度相對較低的工作環(huán)境A中,基于語音獎勵函數(shù)的A3C方法相比基本的A3C方法收斂速度提升了62.1%,即使在較高難度的工作環(huán)境下,基于語音獎勵函數(shù)的A3C方法收斂速度也有40.2%的提升。

    結(jié)合圖7和圖8可以看出,在兩種不同工作環(huán)境下,基于語音獎勵函數(shù)的DPPO 方法在收斂速度方面均優(yōu)于基本的A3C 方法。其中在工作環(huán)境A 中收斂速度提升了24%,在工作環(huán)境B中收斂速度提升了60.8%。

    通過表2 和表4 對比可知,基于語音獎勵函數(shù)的DPPO方法與A3C方法相比不僅收斂速度更快,而且魯棒性更好。其中在工作環(huán)境A中,基于語音獎勵函數(shù)的DPPO方法均值與A3C方法相比提高了3.1%,標(biāo)準(zhǔn)差下降了27.7%,在工作環(huán)境B中,均值提高了4.6%,標(biāo)準(zhǔn)差下降了52.8%。

    3.3 討論

    在不同環(huán)境下,對基于語音獎勵函數(shù)的DDPO、DDPG、A3C 方法進(jìn)行30 次重復(fù)實(shí)驗(yàn)后,本節(jié)對不同方法所獲獎勵值的均值、標(biāo)準(zhǔn)差以及收斂需要的幕數(shù),進(jìn)行了可視化分析。如圖9 和圖10 所示,其中,縱坐標(biāo)分別為獎勵值和幕數(shù)??梢钥闯?,在本文所設(shè)計(jì)的對比實(shí)驗(yàn)下,本文所提出的基于語音獎勵函數(shù)的軌跡規(guī)劃方法,在不同的工作環(huán)境中相比其他方法均取得了較高的學(xué)習(xí)效率和較好的魯棒性。

    圖9 獎勵值可視化對比Fig.9 Visual comparison of reward values

    圖10 幕數(shù)可視化對比Fig.10 Visual comparison of number of acts

    4 結(jié)束語

    本文提出了一種基于語音獎勵函數(shù)的機(jī)械臂軌跡規(guī)劃方法。通過設(shè)計(jì)一種語音獎勵函數(shù),有效地解決了無效探索導(dǎo)致學(xué)習(xí)效率偏低的問題。將DPPO 方法用于未知工作環(huán)境中的機(jī)械臂軌跡規(guī)劃任務(wù),提高了規(guī)劃策略的魯棒性。實(shí)驗(yàn)證明本文提出的基于語音獎勵函數(shù)的DPPO 方法在不同難度的未知工作環(huán)境中均取得了良好的效果,學(xué)習(xí)效率更高,具有很高的適用性。但是僅能實(shí)現(xiàn)單一目標(biāo)點(diǎn)的機(jī)械臂軌跡規(guī)劃,而在真實(shí)工作環(huán)境中,有些任務(wù)的目標(biāo)點(diǎn)為多個(gè)。未來考慮將本文方法推廣到多目標(biāo)軌跡規(guī)劃。

    猜你喜歡
    機(jī)械規(guī)劃環(huán)境
    長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
    一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
    調(diào)試機(jī)械臂
    孕期遠(yuǎn)離容易致畸的環(huán)境
    環(huán)境
    規(guī)劃引領(lǐng)把握未來
    簡單機(jī)械
    快遞業(yè)十三五規(guī)劃發(fā)布
    商周刊(2017年5期)2017-08-22 03:35:26
    多管齊下落實(shí)規(guī)劃
    機(jī)械班長
    最新中文字幕久久久久| 欧美一区二区亚洲| 最近中文字幕2019免费版| 中文乱码字字幕精品一区二区三区 | 国产亚洲一区二区精品| 91在线精品国自产拍蜜月| 国产成人精品久久久久久| 亚洲国产日韩欧美精品在线观看| 国模一区二区三区四区视频| 在线观看一区二区三区| 亚洲在久久综合| 特大巨黑吊av在线直播| 久久6这里有精品| 精品久久久久久电影网| av在线蜜桃| 久久久欧美国产精品| 中文字幕免费在线视频6| 欧美日韩国产mv在线观看视频 | 又爽又黄a免费视频| 精品欧美国产一区二区三| 亚洲精品色激情综合| av网站免费在线观看视频 | 大话2 男鬼变身卡| 久久精品国产亚洲av涩爱| 伊人久久国产一区二区| 色播亚洲综合网| 免费不卡的大黄色大毛片视频在线观看 | 免费高清在线观看视频在线观看| 九草在线视频观看| 午夜福利成人在线免费观看| 亚洲精品成人av观看孕妇| 国产成人aa在线观看| 亚洲精品久久午夜乱码| 精品久久久久久电影网| 男人舔女人下体高潮全视频| 身体一侧抽搐| 久久久久久久久久久丰满| 国产成人aa在线观看| 久久人人爽人人片av| 国产黄片视频在线免费观看| 亚洲不卡免费看| 日韩强制内射视频| 九九久久精品国产亚洲av麻豆| ponron亚洲| 日韩一区二区视频免费看| 亚洲图色成人| 亚洲av在线观看美女高潮| 熟女人妻精品中文字幕| 大片免费播放器 马上看| 天天躁日日操中文字幕| 一级片'在线观看视频| 美女国产视频在线观看| 成人毛片60女人毛片免费| 夜夜爽夜夜爽视频| 亚洲不卡免费看| 国产 一区 欧美 日韩| 国产在线一区二区三区精| 亚洲天堂国产精品一区在线| 日本黄色片子视频| 97精品久久久久久久久久精品| 国产精品久久久久久av不卡| 亚洲国产av新网站| 人人妻人人澡欧美一区二区| 老司机影院毛片| 中文资源天堂在线| 日本三级黄在线观看| 男人和女人高潮做爰伦理| 欧美成人a在线观看| 天天躁日日操中文字幕| 久久久国产一区二区| 天堂√8在线中文| 国产不卡一卡二| 91久久精品电影网| ponron亚洲| 人人妻人人澡人人爽人人夜夜 | 久久久久久久久中文| 日韩欧美国产在线观看| 国产69精品久久久久777片| 男女视频在线观看网站免费| videossex国产| 国产精品嫩草影院av在线观看| 亚洲国产最新在线播放| 免费观看的影片在线观看| 一夜夜www| 欧美另类一区| 成人漫画全彩无遮挡| av在线播放精品| 午夜福利在线观看吧| 高清欧美精品videossex| 简卡轻食公司| 日本黄色片子视频| 久久精品国产亚洲av天美| 一级爰片在线观看| 日韩欧美一区视频在线观看 | 久久久亚洲精品成人影院| 汤姆久久久久久久影院中文字幕 | 丝袜美腿在线中文| 国语对白做爰xxxⅹ性视频网站| av女优亚洲男人天堂| 麻豆精品久久久久久蜜桃| 成人亚洲精品av一区二区| 国产高清三级在线| 成人综合一区亚洲| 看黄色毛片网站| 成年版毛片免费区| 国产免费福利视频在线观看| 午夜福利在线在线| 亚洲欧洲国产日韩| 777米奇影视久久| 丰满人妻一区二区三区视频av| 有码 亚洲区| 嫩草影院新地址| 久久久久九九精品影院| 韩国高清视频一区二区三区| 久久草成人影院| 乱码一卡2卡4卡精品| 秋霞伦理黄片| 91狼人影院| 在线天堂最新版资源| 亚洲精品视频女| 国产一区二区在线观看日韩| 久久人人爽人人爽人人片va| 免费看美女性在线毛片视频| 性插视频无遮挡在线免费观看| 久久久色成人| 欧美丝袜亚洲另类| 内地一区二区视频在线| 亚洲在线观看片| 十八禁网站网址无遮挡 | 哪个播放器可以免费观看大片| 在线免费观看的www视频| 有码 亚洲区| 国产免费视频播放在线视频 | 九九在线视频观看精品| 一级黄片播放器| 久久久久网色| 欧美成人精品欧美一级黄| 欧美一级a爱片免费观看看| 国产成人午夜福利电影在线观看| 精品酒店卫生间| 久久热精品热| 精品一区二区免费观看| 舔av片在线| 国产亚洲精品久久久com| 蜜桃亚洲精品一区二区三区| 国产精品不卡视频一区二区| 欧美最新免费一区二区三区| 身体一侧抽搐| 美女主播在线视频| 久久人人爽人人爽人人片va| 国精品久久久久久国模美| 久久久久精品性色| 久久久久久久国产电影| 国产探花在线观看一区二区| 女人久久www免费人成看片| 日韩一本色道免费dvd| 美女大奶头视频| 又粗又硬又长又爽又黄的视频| 一二三四中文在线观看免费高清| 亚洲成人久久爱视频| 99久久人妻综合| 91狼人影院| 人妻夜夜爽99麻豆av| 日韩不卡一区二区三区视频在线| 男女国产视频网站| 亚洲欧美清纯卡通| 亚洲成人一二三区av| 青春草视频在线免费观看| 色综合色国产| 亚洲精品久久久久久婷婷小说| 亚洲综合色惰| 91久久精品国产一区二区成人| 免费在线观看成人毛片| 天堂影院成人在线观看| 伦精品一区二区三区| 精品国产露脸久久av麻豆 | 美女xxoo啪啪120秒动态图| 亚洲国产精品成人综合色| 国产精品一二三区在线看| 国产v大片淫在线免费观看| 在线播放无遮挡| 麻豆久久精品国产亚洲av| 又黄又爽又刺激的免费视频.| 简卡轻食公司| 高清av免费在线| 美女黄网站色视频| 日本wwww免费看| 日本午夜av视频| 亚洲乱码一区二区免费版| 久久热精品热| 边亲边吃奶的免费视频| 国产成人精品久久久久久| 成人亚洲欧美一区二区av| 黄色配什么色好看| 91狼人影院| 国产午夜精品一二区理论片| 亚洲国产日韩欧美精品在线观看| 精品少妇黑人巨大在线播放| 国产毛片a区久久久久| 在线天堂最新版资源| 麻豆久久精品国产亚洲av| 午夜福利在线在线| 日韩伦理黄色片| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 国产精品99久久久久久久久| 看十八女毛片水多多多| 日本-黄色视频高清免费观看| 日韩一本色道免费dvd| 国产 一区精品| 亚洲怡红院男人天堂| 精品午夜福利在线看| 激情五月婷婷亚洲| 免费观看性生交大片5| 亚洲精品影视一区二区三区av| 禁无遮挡网站| 免费在线观看成人毛片| 蜜桃久久精品国产亚洲av| 成人美女网站在线观看视频| 国产又色又爽无遮挡免| 九草在线视频观看| 午夜福利在线观看免费完整高清在| 久久热精品热| 婷婷色综合大香蕉| 亚洲精品色激情综合| 最近视频中文字幕2019在线8| 少妇猛男粗大的猛烈进出视频 | 毛片女人毛片| 亚洲欧美中文字幕日韩二区| 国产一级毛片在线| 亚洲天堂国产精品一区在线| 波多野结衣巨乳人妻| www.av在线官网国产| 麻豆久久精品国产亚洲av| 深夜a级毛片| 国产精品一及| 搡老乐熟女国产| 欧美成人一区二区免费高清观看| 简卡轻食公司| 中文字幕制服av| 国产探花在线观看一区二区| 亚洲av成人精品一区久久| 老女人水多毛片| 国产精品人妻久久久久久| 夫妻性生交免费视频一级片| 久久热精品热| 国内揄拍国产精品人妻在线| 天堂√8在线中文| 国产高清有码在线观看视频| 毛片女人毛片| 啦啦啦啦在线视频资源| 中文在线观看免费www的网站| 日本熟妇午夜| 中文欧美无线码| 国产极品天堂在线| 亚洲综合色惰| av在线天堂中文字幕| 少妇熟女欧美另类| 日韩在线高清观看一区二区三区| 久久久久国产网址| 我的老师免费观看完整版| 看非洲黑人一级黄片| 久久久久久久午夜电影| 久久午夜福利片| 成年免费大片在线观看| 丝袜喷水一区| 黄色一级大片看看| 亚洲精品亚洲一区二区| 99热网站在线观看| 深爱激情五月婷婷| 老司机影院成人| 成人亚洲精品av一区二区| 赤兔流量卡办理| 插逼视频在线观看| 婷婷色综合大香蕉| 久久久精品94久久精品| 亚洲综合精品二区| 女的被弄到高潮叫床怎么办| 成人美女网站在线观看视频| 国产精品一区二区三区四区免费观看| 一级毛片黄色毛片免费观看视频| 亚洲成色77777| 久久99精品国语久久久| 国产亚洲91精品色在线| 亚洲精品影视一区二区三区av| 99热这里只有是精品在线观看| 一级爰片在线观看| 亚洲成色77777| 少妇人妻一区二区三区视频| 欧美成人a在线观看| 成年女人在线观看亚洲视频 | 精品久久久久久电影网| 国内精品宾馆在线| 如何舔出高潮| 最近最新中文字幕大全电影3| 日韩一区二区视频免费看| 国产午夜精品论理片| 国产一区二区三区综合在线观看 | 日韩 亚洲 欧美在线| 中文字幕免费在线视频6| 亚洲在线自拍视频| 国产午夜精品论理片| 成年女人看的毛片在线观看| 亚洲真实伦在线观看| 亚洲av男天堂| 欧美性感艳星| 亚洲va在线va天堂va国产| 熟女人妻精品中文字幕| 欧美潮喷喷水| 九九在线视频观看精品| 久久久亚洲精品成人影院| 亚洲乱码一区二区免费版| 久久久久久伊人网av| 一边亲一边摸免费视频| 在线观看美女被高潮喷水网站| 成人av在线播放网站| 成人av在线播放网站| 99热这里只有精品一区| 搞女人的毛片| 男的添女的下面高潮视频| 精品国产三级普通话版| 久久午夜福利片| 色尼玛亚洲综合影院| 身体一侧抽搐| 国产 一区精品| 亚洲乱码一区二区免费版| 亚洲综合色惰| 精品一区在线观看国产| 午夜老司机福利剧场| 国产精品熟女久久久久浪| 最近的中文字幕免费完整| 97精品久久久久久久久久精品| 99久国产av精品| 免费人成在线观看视频色| 欧美激情国产日韩精品一区| 亚洲经典国产精华液单| 22中文网久久字幕| 91av网一区二区| 亚洲精品乱久久久久久| 一级二级三级毛片免费看| 97热精品久久久久久| 亚洲精品成人av观看孕妇| 国产乱人偷精品视频| 97超碰精品成人国产| 国产熟女欧美一区二区| 国产一区二区在线观看日韩| 日本av手机在线免费观看| 又爽又黄无遮挡网站| 伦精品一区二区三区| 狠狠精品人妻久久久久久综合| 久久亚洲国产成人精品v| av网站免费在线观看视频 | 精品久久久精品久久久| 99热这里只有精品一区| 欧美不卡视频在线免费观看| 黄片wwwwww| 色播亚洲综合网| 亚洲精品乱码久久久v下载方式| 色综合色国产| 亚洲欧洲国产日韩| 精品人妻熟女av久视频| 久久久久久久久久成人| 国产av在哪里看| 欧美性感艳星| 成人二区视频| 岛国毛片在线播放| 日韩精品有码人妻一区| 卡戴珊不雅视频在线播放| 午夜福利成人在线免费观看| 九草在线视频观看| 在线免费十八禁| 亚洲丝袜综合中文字幕| av网站免费在线观看视频 | 老司机影院成人| 中文字幕久久专区| 22中文网久久字幕| 久久久久久久午夜电影| 久久久久性生活片| 搞女人的毛片| 日韩精品有码人妻一区| 亚洲国产最新在线播放| 久久久久久久亚洲中文字幕| 国产一级毛片七仙女欲春2| 少妇的逼好多水| 韩国av在线不卡| 搞女人的毛片| 亚洲av成人精品一二三区| 能在线免费看毛片的网站| 国产亚洲av片在线观看秒播厂 | 久久久久久久久大av| 日本欧美国产在线视频| a级一级毛片免费在线观看| 只有这里有精品99| 两个人视频免费观看高清| 久久久久久久久久久丰满| 亚洲第一区二区三区不卡| 777米奇影视久久| 在线免费观看不下载黄p国产| 久久久久久久久久久免费av| 亚洲精品久久午夜乱码| 色尼玛亚洲综合影院| 精华霜和精华液先用哪个| 精品人妻熟女av久视频| 国内精品一区二区在线观看| 亚洲av电影在线观看一区二区三区 | 丰满少妇做爰视频| 国产精品人妻久久久久久| 日韩制服骚丝袜av| 亚洲欧美一区二区三区国产| 日韩,欧美,国产一区二区三区| 婷婷六月久久综合丁香| 久久精品夜色国产| 国产成人freesex在线| 亚洲av男天堂| 最近2019中文字幕mv第一页| 日韩,欧美,国产一区二区三区| 色吧在线观看| 亚洲成人久久爱视频| 亚洲国产日韩欧美精品在线观看| 日韩制服骚丝袜av| 人妻少妇偷人精品九色| 日韩,欧美,国产一区二区三区| 美女黄网站色视频| 日韩 亚洲 欧美在线| 天天一区二区日本电影三级| 国产成年人精品一区二区| 美女高潮的动态| 国产av码专区亚洲av| 国产精品精品国产色婷婷| 别揉我奶头 嗯啊视频| 日韩av在线免费看完整版不卡| 日本av手机在线免费观看| 亚洲天堂国产精品一区在线| 男女啪啪激烈高潮av片| 亚洲欧美日韩卡通动漫| 免费观看精品视频网站| 婷婷色综合大香蕉| 插阴视频在线观看视频| 国产又色又爽无遮挡免| 婷婷六月久久综合丁香| 国产美女午夜福利| 女人久久www免费人成看片| 国产亚洲91精品色在线| 免费看日本二区| 国产女主播在线喷水免费视频网站 | 欧美成人一区二区免费高清观看| a级一级毛片免费在线观看| 国产一区二区在线观看日韩| 一本一本综合久久| 亚洲在久久综合| 久久久久久久久大av| 99热全是精品| 九九在线视频观看精品| av.在线天堂| 国产视频首页在线观看| 国产在线一区二区三区精| 成人毛片60女人毛片免费| 国产黄色小视频在线观看| 亚洲在线自拍视频| 亚洲成人精品中文字幕电影| 日韩亚洲欧美综合| 一个人看视频在线观看www免费| 国产精品国产三级国产av玫瑰| 99热这里只有是精品在线观看| 熟女电影av网| 国产精品女同一区二区软件| 亚洲av成人精品一区久久| 精品人妻视频免费看| 99久国产av精品国产电影| 免费看光身美女| 一边亲一边摸免费视频| 女的被弄到高潮叫床怎么办| 午夜福利网站1000一区二区三区| 国产av国产精品国产| 日韩欧美一区视频在线观看 | 青春草视频在线免费观看| 久久久久久国产a免费观看| 色综合站精品国产| 男女那种视频在线观看| 久久精品夜夜夜夜夜久久蜜豆| 男人爽女人下面视频在线观看| 国产成人精品福利久久| av一本久久久久| 又黄又爽又刺激的免费视频.| 久久精品久久久久久噜噜老黄| 午夜激情福利司机影院| 日本-黄色视频高清免费观看| 欧美zozozo另类| 亚洲无线观看免费| 高清av免费在线| 精品久久久久久久久久久久久| 日韩精品青青久久久久久| 亚洲四区av| 一个人看的www免费观看视频| 激情 狠狠 欧美| av专区在线播放| 国产精品国产三级国产av玫瑰| 91精品国产九色| 亚洲精品,欧美精品| 国产麻豆成人av免费视频| 日本黄大片高清| 性色avwww在线观看| 女人久久www免费人成看片| 国产精品女同一区二区软件| 国产欧美日韩精品一区二区| 国产精品国产三级国产av玫瑰| 中文字幕亚洲精品专区| 人人妻人人澡欧美一区二区| 国产精品一区www在线观看| 美女脱内裤让男人舔精品视频| 91在线精品国自产拍蜜月| 国产伦精品一区二区三区四那| 我的女老师完整版在线观看| 高清在线视频一区二区三区| 深夜a级毛片| 亚洲成人久久爱视频| 精品国产露脸久久av麻豆 | 久久国内精品自在自线图片| 大香蕉久久网| 国产精品日韩av在线免费观看| 中文字幕人妻熟人妻熟丝袜美| av国产免费在线观看| 日韩一区二区三区影片| 边亲边吃奶的免费视频| 最后的刺客免费高清国语| 成人高潮视频无遮挡免费网站| 国产视频首页在线观看| 可以在线观看毛片的网站| 国产精品国产三级国产av玫瑰| 亚洲av电影不卡..在线观看| 国产真实伦视频高清在线观看| 日本爱情动作片www.在线观看| 精品久久久久久久久久久久久| 亚洲乱码一区二区免费版| 亚洲人与动物交配视频| 亚洲欧美一区二区三区黑人 | 亚洲国产精品成人久久小说| 亚洲成人av在线免费| 丝袜美腿在线中文| 99re6热这里在线精品视频| 综合色av麻豆| 可以在线观看毛片的网站| 亚洲熟妇中文字幕五十中出| 中文字幕人妻熟人妻熟丝袜美| 亚洲欧洲国产日韩| 亚洲av不卡在线观看| 人人妻人人澡欧美一区二区| 乱系列少妇在线播放| 精品一区二区三区人妻视频| 亚洲va在线va天堂va国产| 亚洲经典国产精华液单| 欧美zozozo另类| 国产一区二区三区综合在线观看 | av在线天堂中文字幕| 赤兔流量卡办理| 精品久久久久久久久av| 国产 一区 欧美 日韩| 日韩欧美精品v在线| 97精品久久久久久久久久精品| ponron亚洲| 亚洲国产色片| 国产一级毛片七仙女欲春2| 春色校园在线视频观看| 国产av码专区亚洲av| 日韩欧美精品免费久久| 国产成人精品福利久久| 青青草视频在线视频观看| 波多野结衣巨乳人妻| 久久精品综合一区二区三区| 精品久久久久久久人妻蜜臀av| 久久久国产一区二区| 成人综合一区亚洲| 久久久久久久久大av| 高清毛片免费看| 少妇人妻一区二区三区视频| 国产69精品久久久久777片| 人人妻人人澡欧美一区二区| 亚洲精品成人av观看孕妇| 神马国产精品三级电影在线观看| 免费黄色在线免费观看| 亚洲精品aⅴ在线观看| 国产麻豆成人av免费视频| 成人毛片60女人毛片免费| 精品欧美国产一区二区三| 国产精品一区二区性色av| 国语对白做爰xxxⅹ性视频网站| 欧美日韩综合久久久久久| 欧美日韩国产mv在线观看视频 | 成年av动漫网址| 日韩一区二区视频免费看| 日韩av免费高清视频| 国产欧美日韩精品一区二区| 精品久久国产蜜桃| 欧美变态另类bdsm刘玥| 国产亚洲最大av| 97超碰精品成人国产| 成人漫画全彩无遮挡| 十八禁网站网址无遮挡 | 观看美女的网站| 国产探花极品一区二区| 日日摸夜夜添夜夜爱| 国产老妇女一区| 中文乱码字字幕精品一区二区三区 | 亚洲精品自拍成人| 在线免费观看不下载黄p国产| 亚洲精品视频女| 成年免费大片在线观看| av国产免费在线观看| 色尼玛亚洲综合影院| 日韩大片免费观看网站| 十八禁国产超污无遮挡网站| 美女黄网站色视频| 成人一区二区视频在线观看| 夫妻午夜视频| 国产精品不卡视频一区二区| 午夜亚洲福利在线播放|