• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    好奇心蒸餾雙Q網(wǎng)絡(luò)移動機(jī)器人路徑規(guī)劃方法

    2023-10-10 10:39:56顧琦然
    關(guān)鍵詞:移動機(jī)器人機(jī)器人狀態(tài)

    張 鳳,顧琦然,袁 帥

    沈陽建筑大學(xué) 電氣與控制工程學(xué)院,沈陽 110168

    路徑規(guī)劃是移動機(jī)器人的自主導(dǎo)航中十分關(guān)鍵的技術(shù)之一。為實(shí)現(xiàn)對移動機(jī)器人的運(yùn)動軌跡進(jìn)行有效的控制,使其能夠順利地通過各種障礙到達(dá)目的地,通常需要使用路徑規(guī)劃算法來保證獲得最優(yōu)路徑。傳統(tǒng)的路徑規(guī)劃方法過于依賴環(huán)境模型。而在深度強(qiáng)化學(xué)習(xí)中,深度學(xué)習(xí)能夠?qū)Ω呔S信息進(jìn)行有效的處理,從而使機(jī)器人能夠與周圍的環(huán)境進(jìn)行持續(xù)的互動;在馬爾可夫決策過程的基礎(chǔ)上,強(qiáng)化學(xué)習(xí)能夠在復(fù)雜的環(huán)境中,實(shí)現(xiàn)移動機(jī)器人的連續(xù)決策來規(guī)劃出實(shí)時(shí)路徑。深度強(qiáng)化學(xué)習(xí)已成為工業(yè)機(jī)器人和室內(nèi)移動機(jī)器人的路徑規(guī)劃方案之一[1],其最初用于游戲仿真領(lǐng)域中,Deep-Mind團(tuán)隊(duì)在2013年首次提出DQN(deep Q-network)模型[2]。當(dāng)前,DQN 算法已成為路徑規(guī)劃的主要算法之一,可是傳統(tǒng)的DQN算法存在著獎勵(lì)稀疏、樣本利用率低且過估計(jì)等問題。且針對這些問題,國內(nèi)外許多學(xué)者進(jìn)行了大量的研究。

    對于獎勵(lì)稀疏問題,文獻(xiàn)[3]提出了一種基于DQN的路徑規(guī)劃算法,在此基礎(chǔ)上對實(shí)際目標(biāo)進(jìn)行采樣,加速訓(xùn)練,并在一定程度上解決了獎勵(lì)稀缺性問題。文獻(xiàn)[4]根據(jù)人的喜好來學(xué)習(xí)獎勵(lì)函數(shù),通過不使用獎勵(lì)功能,而是通過選擇路徑來獲得人類的喜好。文獻(xiàn)[5]采用虛擬計(jì)數(shù)方法,通過信息增益,將狀態(tài)頻率轉(zhuǎn)換為虛擬計(jì)數(shù),并將其作為附加的內(nèi)部獎勵(lì)。

    文獻(xiàn)[6-12]分別通過RSV-DuDQN、二次主動采樣方法、NDQN、LSTM、重采樣優(yōu)選機(jī)制、輸入深度圖像等對DQN算法進(jìn)行改進(jìn),使DQN的性能得到了一定的改善,同時(shí)也解決了DQN的低采樣率問題。

    對于DQN 過估計(jì)問題,許多學(xué)者也提出了不同的解決辦法。文獻(xiàn)[13]提出一種DTDDQN算法,通過融合DDQN 與平均DQN 進(jìn)行參數(shù)訓(xùn)練,使機(jī)器人在選擇動作時(shí)不會過估計(jì)。文獻(xiàn)[14]在DQN算法基礎(chǔ)上與Sarsa算法進(jìn)行融合,用于減少過估計(jì)對DQN 產(chǎn)生的不良影響。文獻(xiàn)[15]提出一種EN-DRQN 算法,使得機(jī)器人可以發(fā)現(xiàn)許多新穎狀態(tài),并作出合理的決策。文獻(xiàn)[16]提出使用重放緩沖器存儲網(wǎng)絡(luò)輸出以改進(jìn)DQN 算法,使機(jī)器人驅(qū)動功率提升。文獻(xiàn)[17]在DQN 中引入修正函數(shù)來改善評估功能,使?fàn)顟B(tài)-動作值的最優(yōu)與非最優(yōu)的差異增大,來解決過估計(jì)問題。文獻(xiàn)[18]提出了一種分散的傳感器級避碰策略,能夠?yàn)榇笮蜋C(jī)器人系統(tǒng)找到有效的、無碰撞的路徑。文獻(xiàn)[19]提出在Gazebo仿真環(huán)境中對DQN 進(jìn)行訓(xùn)練提升機(jī)器人的環(huán)境適應(yīng)性,降低過估計(jì)影響。

    上述方法,一定程度上提高了DQN算法的性能,但只是針對過估計(jì)、樣本利用率低和稀疏獎勵(lì)中的單一問題進(jìn)行了有效改進(jìn),為了更有效地綜合性解決此類問題,提出一種基于CDM-D3QN-PER 的端到端路徑規(guī)劃算法。在機(jī)器人感知端引入LSTM,通過“門”篩選關(guān)鍵信息解決點(diǎn)云信息的長序列數(shù)據(jù)問題;其次,使用PER對具有較高優(yōu)先級的樣本進(jìn)行訓(xùn)練,解決樣本質(zhì)量的問題;接著融合CDM,增加機(jī)器人的內(nèi)在好奇心,避免出現(xiàn)機(jī)器人因缺乏反饋而陷入困境的問題,提高環(huán)境探索率。最后,利用Gazebo平臺對算法進(jìn)行驗(yàn)證,并在兩種不同的復(fù)雜仿真環(huán)境下,分別對DQN、DDQN、D3QN和CDM-D3QN-PER進(jìn)行了比較。實(shí)驗(yàn)表明,CDM-D3QNPER算法的穩(wěn)定性和到達(dá)目標(biāo)點(diǎn)次數(shù)得到有效提升,該算法使移動機(jī)器人在與環(huán)境交互中可更高效地獲取最優(yōu)路徑,在路經(jīng)規(guī)劃技術(shù)中具有一定的研究意義。

    1 DQN及其改進(jìn)算法

    1.1 DQN

    DQN 算法的兩個(gè)創(chuàng)新點(diǎn),即經(jīng)驗(yàn)回放與設(shè)立單獨(dú)的目標(biāo)網(wǎng)絡(luò)。DQN 針對Q-learning 做出一下改進(jìn):(1)DQN 中的數(shù)值函數(shù)是由深度CNN 逼近的。(2)在DQN中引入了一種基于經(jīng)驗(yàn)回放的訓(xùn)練模型。(3)DQN獨(dú)立地設(shè)定了用于分別處理時(shí)差算法TD誤差的目標(biāo)網(wǎng)絡(luò)。Q-learning中的參數(shù)更新公式如式(1)所示:

    其中,TD 目標(biāo)r+γmaxa′Q( )s′,a′;θ在計(jì)算時(shí)用到了網(wǎng)絡(luò)參數(shù)θ。

    1.2 Double DQN

    Double DQN 主要是解決DQN 過估計(jì)問題[20]。該方法的關(guān)鍵在于利用不需要的值函數(shù),分別對TD 對象的行為進(jìn)行選擇以及對TD對象的行為評價(jià)。

    在Q-learning中,TD對象的動作選擇是在下一種狀態(tài)下,被確定為最大的狀態(tài)動作。動作評價(jià)是在選擇下一種狀態(tài)下的最佳動作,從而構(gòu)建目標(biāo)。DDQN使用不同的數(shù)值函數(shù)來選取和評價(jià)動作。其更新公式見式(2):

    由上式可以看出,動作的選擇采用θ網(wǎng)絡(luò),a*=arg maxaQ(St+1,a;θt)。動作評估采用θ′ ,1+γQ(St+1,a*;θ′t)。

    1.3 Dueling DQN

    Dueling DQN[21]把神經(jīng)網(wǎng)絡(luò)中Q價(jià)值的輸出分成兩部分,第一部分是狀態(tài)價(jià)值V,這部分價(jià)值由狀態(tài)直接決定和Action 無關(guān)。第二部分就是動作價(jià)值和狀態(tài)價(jià)值的差值A(chǔ),每一個(gè)Action都存在一個(gè)差值。這兩部分構(gòu)成倒數(shù)第二層的神經(jīng)網(wǎng)絡(luò),節(jié)點(diǎn)數(shù)為Action數(shù)加1。然后最后一層的Q值就可以直接由V和A相加構(gòu)成:

    在實(shí)際操作中,需要減去一個(gè)平均值:

    2 CDM-D3QN-PER算法

    傳統(tǒng)DQN算法在復(fù)雜環(huán)境中因?yàn)槿狈﹃P(guān)鍵信息且獎勵(lì)稀疏,規(guī)劃任務(wù)很難成功,為了提高路徑規(guī)劃任務(wù),提出了一種基于改進(jìn)的雙Q網(wǎng)絡(luò)移動機(jī)器人路徑規(guī)劃方法——CDM-D3QN-PER算法。該算法在DDQN與Dueling DQN 融合的D3QN 模型的基礎(chǔ)上,加入LSTM、CDM 和PER。CDM-D3QN-PER 算法模型如圖1所示。

    (1)移動機(jī)器人通過激光傳感器搜集環(huán)境信息,并將當(dāng)前時(shí)刻的狀態(tài)信息送入可專用于處理雷達(dá)產(chǎn)生的長序列點(diǎn)云信息的LSTM中。

    (2)雙目相機(jī)將收集到的圖像信息經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)處理,兩者信息與Concat 函數(shù)結(jié)合,輸入到D3QN 的輸入端進(jìn)行訓(xùn)練。

    (3)獲取到Q值和當(dāng)前最優(yōu)執(zhí)行動作A,切換到下一時(shí)刻狀態(tài),將當(dāng)前和下一刻狀態(tài)信息輸入到CDM 模型,計(jì)算出前向損失函數(shù)與預(yù)測損失函數(shù)。

    (4)將當(dāng)前和預(yù)測狀態(tài)信息輸入到CDM,獲取反向損失函數(shù),將兩個(gè)損失函數(shù)整體優(yōu)化并與預(yù)測損失函數(shù)對比,提高移動機(jī)器人環(huán)境探索效率,獲取更多獎勵(lì)值。不斷重復(fù)進(jìn)行以上過程,累積獎勵(lì)值最大化,直至得到最優(yōu)動作值函數(shù)Q對應(yīng)的最優(yōu)動作。

    CDM-D3QN-PER算法具體流程如下所示:

    2.1 機(jī)器人內(nèi)在獎勵(lì)獲取方法——CDM

    CDM-D3QN-PER算法中采用內(nèi)在好奇心模塊(ⅠCM)和隨即網(wǎng)絡(luò)蒸餾(RND)結(jié)合的隨即網(wǎng)絡(luò)蒸餾(CDM)算法獲取內(nèi)在獎勵(lì)值。算法模型如圖2所示。

    圖2 CDM模型Fig.2 CDM model

    ⅠCM 模型通過對前時(shí)間狀態(tài)信息st和下一時(shí)間狀態(tài)信息st+1進(jìn)行特征提取計(jì)算出前向損失函數(shù)LF。輸入當(dāng)前動作at和預(yù)測動作a?t,計(jì)算出反向損失函數(shù)LI。RND模型通過輸入下一時(shí)間狀態(tài)信息st+1計(jì)算出預(yù)測損失函數(shù)LP。

    二者結(jié)合后的CDM 算法既保留了ⅠCM 把無用信息過濾掉的優(yōu)勢,確定特征提取后的信息都是有用的信息并保持探索,同時(shí)兼顧了RND 判斷當(dāng)前狀態(tài)是否已經(jīng)探索過。

    其中前向模型(forward model)利用L2范數(shù)作為損失函數(shù):

    反向模型(inverse model)的損失函數(shù)為:

    預(yù)測模型(predict model)的損失函數(shù)可表示為:

    最后,機(jī)器人的學(xué)習(xí)目的是:

    在D3QN算法中添加改進(jìn)后的內(nèi)在好奇心機(jī)制,將激光雷達(dá)采集的狀態(tài)信息st作為CDM 模型的輸入數(shù)據(jù),在訓(xùn)練時(shí)不斷優(yōu)化網(wǎng)絡(luò)參數(shù),通過好奇心驅(qū)動機(jī)器人在路徑規(guī)劃任務(wù)中主動探索未知狀態(tài)。

    2.2 機(jī)器人點(diǎn)云信息處理方法——LSTM

    激光雷達(dá)能夠適應(yīng)不同的光照環(huán)境,長短時(shí)記憶網(wǎng)絡(luò)(LSTM)利用點(diǎn)云數(shù)據(jù)處理激光雷達(dá)采集到的環(huán)境與機(jī)器人狀態(tài)數(shù)據(jù),以解決長序列訓(xùn)練中的梯度消失、爆炸等問題。在路徑規(guī)劃中,收集到的數(shù)據(jù)經(jīng)過該網(wǎng)絡(luò)處理后得到統(tǒng)一的障礙物狀態(tài)與機(jī)器人自身狀態(tài)輸入到D3QN網(wǎng)絡(luò)中,再次經(jīng)過全連接層處理后輸出的便是用于選取最優(yōu)動作的動作值函數(shù)Q,LSTM 的結(jié)構(gòu)模型如圖3所示。

    圖3 LSTM模型Fig.3 LSTM model

    LSTM通過三個(gè)“門”機(jī)制完成信息的去留:

    (1)首先,確定細(xì)胞狀態(tài)丟棄的信息由一個(gè)叫“遺忘之門”的sigmoid 單元進(jìn)行處理。在0 到1 之間,通過觀察ht-1和xt信息,可以輸出向量的保存還是放棄。

    (2)利用ht-1和xt通過輸入門的操作來決定更新信息。通過輸入門得到新的機(jī)器人狀態(tài)信息。

    (3)在更新狀態(tài)之后,要根據(jù)輸入的和來判斷輸出的狀態(tài),通過輸出端的sigmoid層獲得一個(gè)判定條件,再通過tanh層獲得-1的矢量,再用輸出端獲得的判定條件乘以這個(gè)矢量。

    各單元門的工作原理公式如式(9)~(13)所示:

    2.3 機(jī)器人樣本處理方法——PER

    在路徑規(guī)劃中,DQN 的取樣方法采用了在經(jīng)驗(yàn)回放中均勻取樣,這種方法并不高效,對于機(jī)器人而言,由于這些數(shù)據(jù)的偏重性不同,針對該問題使用優(yōu)先經(jīng)驗(yàn)回放(PER)。該算法是指在均勻取樣中,給有較高學(xué)習(xí)效率的樣品以較大的取樣加權(quán)。定義采樣的概率為:

    其中,Pα j對于第j個(gè)傳輸樣本的優(yōu)先權(quán),α被用來調(diào)整優(yōu)先度(當(dāng)α取零時(shí)化成均勻取樣),下面兩種方式的不同是優(yōu)先權(quán)的定義不同:

    其中,δi為DQN的TD-error,?用于防止概率為0。

    PER 將當(dāng)前狀態(tài)信息、下一個(gè)狀態(tài)信息、動作值等環(huán)境交互信息通過存儲到記憶回放單元中,并對其中的樣本以概率P進(jìn)行優(yōu)先級排序。

    當(dāng)記憶回放單元里的樣本被儲存到一定容量時(shí),通過提取其中部分概率P高的樣本,將樣本中的當(dāng)前狀態(tài)信息輸入到Q網(wǎng)絡(luò)中,以獲取當(dāng)前狀態(tài)信息的Q值。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 仿真實(shí)驗(yàn)環(huán)境

    由于深度強(qiáng)化學(xué)習(xí)的訓(xùn)練要求有海量的數(shù)據(jù)支持,而且在實(shí)際操作中很可能會破壞硬件設(shè)備,所以大部分的訓(xùn)練都是在仿真環(huán)境中進(jìn)行。為了減少虛擬和真實(shí)場景中機(jī)器人可視測量的差異,即將激光測距技術(shù)應(yīng)用于實(shí)驗(yàn)環(huán)境中。

    實(shí)驗(yàn)環(huán)境為CPU服務(wù)器,TensorFlow框架,Python3.6,Gazebo7.0,采用Jackal 四輪機(jī)器人在Gazebo 搭建仿真環(huán)境中進(jìn)行訓(xùn)練,其機(jī)器人帶有激光測距技術(shù)。Jackal四輪機(jī)器人通過對運(yùn)動中的實(shí)時(shí)定位進(jìn)行分析,并對其與障礙物及目標(biāo)點(diǎn)的距離進(jìn)行分析,將激光傳感器收集到相對自己坐標(biāo)的坐標(biāo)數(shù)據(jù)作為輸入,輸出連續(xù)的轉(zhuǎn)向指令,通過激光測距傳感器來實(shí)現(xiàn)探索最優(yōu)路徑。

    在實(shí)驗(yàn)中,先把移動機(jī)器人的前向速度設(shè)置為:3 m/s,角速度為:0.03 rad/s,其余速度為:0.05 m/s。再構(gòu)建有障礙和無障礙的室內(nèi)環(huán)境進(jìn)行訓(xùn)練,來檢驗(yàn)DQN、DDQN、D3QN和CDM-D3QN-PER的算法性能。

    如圖4、5 所示,仿真環(huán)境1 是四面圍墻都是完全封閉的,可以讓機(jī)器人在這里接受訓(xùn)練,從而達(dá)到躲避圍墻和抵達(dá)目的地的能力。仿真環(huán)境2是加入了5個(gè)正方體障礙物,分別是4個(gè)有規(guī)則和1個(gè)無規(guī)則,進(jìn)一步提高了機(jī)器人的路徑規(guī)劃難度,并使其具備了規(guī)避靜止障礙的能力,從而可以進(jìn)一步驗(yàn)證算法的穩(wěn)定性。

    圖4 仿真環(huán)境1Fig.4 Simulation environment 1

    圖5 仿真環(huán)境2Fig.5 Simulation environment 2

    表1 為CDM-D3QN-PER 參數(shù)設(shè)置。在這里,探索因子ε起初值為1,ε∈(0.1,1),跟隨機(jī)器人的迭代數(shù)增大呈線性下降趨勢。經(jīng)網(wǎng)絡(luò)中的參數(shù)更新是基于均方根的隨機(jī)梯度遞減算法,根據(jù)每個(gè)緩存器的優(yōu)先回放機(jī)制,從緩沖區(qū)中抽取最小比特尺寸為32 的采樣更新網(wǎng)絡(luò)。為達(dá)到路徑規(guī)劃的目的,將運(yùn)動進(jìn)行離散化,其基礎(chǔ)運(yùn)動包括:向前、向左轉(zhuǎn)、向右轉(zhuǎn)、左轉(zhuǎn)彎、右轉(zhuǎn)彎。在基礎(chǔ)動作上修改不同速度值,使其增加到11 個(gè)離散的可執(zhí)行動作,動作名稱與速度值分別為A1(1,-1)、A2(1,-0.5)、A3(1,0)、A4(1,0.5)、A5(1,1)、A6(0.5,-1)、A7(0.5,0)、A8(0.5,1)、A9(0,-1)、A10(0,0)、A11(0,1)。

    表1 仿真參數(shù)設(shè)置Table 1 Simulation parameters setting

    獎賞值設(shè)置如式(17)所示:

    在獎勵(lì)設(shè)定中,獎勵(lì)設(shè)定包含正、負(fù)兩個(gè)獎勵(lì),以1為單位的紅色圓筒為目標(biāo)點(diǎn),作用距離為0.8 m,移動機(jī)器人以影響距離閾值檢測到目標(biāo)位置,獲得+20 正獎勵(lì),持續(xù)訓(xùn)練,直到超過時(shí)間或者沖撞,才能繼續(xù)進(jìn)行下一輪;如果機(jī)器人在最小的影響范圍內(nèi)與障礙物發(fā)生碰撞,則獲得負(fù)值-20,本次訓(xùn)練結(jié)束,繼續(xù)進(jìn)行下一輪,完成指定的訓(xùn)練次數(shù)結(jié)束。訓(xùn)練次數(shù)是600回合。

    3.2 實(shí)驗(yàn)結(jié)果對比分析

    (1)無障礙環(huán)境仿真分析

    DQN、DDQN、D3QN 和CDM-D3QN-PER 這4 種算法的獎勵(lì)值隨訓(xùn)練步數(shù)的變化趨勢如圖6所示,可以明顯驗(yàn)證出CDM-D3QN-PER 算法的獎勵(lì)得分更加穩(wěn)定,在300回合逐漸穩(wěn)定收斂。D3QN在410回合開始穩(wěn)定收斂??蒁QN、DDQN 算法波動性較大,尤其是DQN幾乎完全波動,且兩者獎勵(lì)值均未出現(xiàn)穩(wěn)定收斂。

    圖6 無障礙仿真環(huán)境累積獎勵(lì)值Fig.6 Accumulated reward value for empty simulation environment

    由表2可知,CDM-D3QN-PER算法在301~600回合中,平均獎勵(lì)值穩(wěn)定達(dá)到了30左右,且均為正數(shù)并穩(wěn)定變化,在401~500 回合達(dá)到最大平均值30.82,其收斂效果遠(yuǎn)遠(yuǎn)超過其他3種算法。D3QN在401回合后平均獎勵(lì)值才剛剛穩(wěn)定在30左右,并在401~500回合達(dá)到最大平均獎勵(lì)值29.82。DDQN 在201~300 回合達(dá)到最大平均獎勵(lì)值15.60,且最終平均獎勵(lì)值為負(fù)數(shù)。DQN 平均獎勵(lì)值均為負(fù)數(shù),在101~200 回合達(dá)到最大平均獎勵(lì)值-5.59。

    表2 無障礙環(huán)境的平均獎勵(lì)值Table 2 Average reward value of empty environment

    以上結(jié)果表明,CDM-D3QN-PER 算法可以在較少的回合數(shù)中完成對移動機(jī)器人的訓(xùn)練,并獲得較高的平均獎勵(lì)值,在該算法下移動機(jī)器人可以更好地與無障礙環(huán)境進(jìn)行交互。

    (2)有障礙環(huán)境仿真分析

    從圖7可以看出,除了CDM-D3QN-PER算法在350回合左右開始穩(wěn)定收斂并已經(jīng)完全掌握躲避障礙物的能力,并且可以成功到達(dá)指定目標(biāo)點(diǎn),獲得相應(yīng)正向獎勵(lì)+20,其獎勵(lì)值穩(wěn)定在20 到40 以內(nèi)。D3QN 在450 回合剛剛開始收斂,其余兩種算法的獎勵(lì)值均一直在正負(fù)值波動。

    圖7 有障礙仿真環(huán)境累積獎勵(lì)值Fig.7 Cumulative reward value of obstacle simulation environment

    表3 表明,DQN 算法的平均獎勵(lì)值均為負(fù)值,說明移動機(jī)器人幾乎無法到達(dá)指定目標(biāo)點(diǎn)獲取最優(yōu)路徑。DDQN算法除了在前100回合獲得短暫的正值,且為最高平均獎勵(lì)值5.60。D3QN 在101~200 回合中為負(fù)值1.19,其余皆為正值,并在401~500 回合中獲得最高平均獎勵(lì)值11.39,雖然與DQN、DDQN 相比訓(xùn)練效果有提升,但是仍然會產(chǎn)生碰撞。CDM-D3QN-PER 算法雖然因?yàn)榄h(huán)境增加了障礙物訓(xùn)練效果略微有些影響,但平均獎勵(lì)值全為正值,最高平均獎勵(lì)值為26.01。而DQN 和DDQN 算法的總平均獎勵(lì)值皆為負(fù)數(shù),這表示移動機(jī)器人訓(xùn)練效果欠佳,不適合復(fù)雜度較高的有障礙環(huán)境,并且D3QN 的訓(xùn)練效果也遠(yuǎn)不如CDM-D3QNPER穩(wěn)定。

    表3 有障礙環(huán)境的平均獎勵(lì)值Table 3 Average reward value of obstacle environment

    以上結(jié)果表明,CDM-D3QN-PER算法可以在較少的迭代次數(shù)下達(dá)成對移動機(jī)器人在有障礙仿真環(huán)境的訓(xùn)練效果,并獲得較高的平均獎勵(lì)值,獲得最優(yōu)路徑。

    移動機(jī)器人訓(xùn)練時(shí),獲取的正獎勵(lì)值越多,說明機(jī)器人的動作策略越準(zhǔn)確,在路徑規(guī)劃過程中,越容易繞開障礙物到達(dá)指定的目標(biāo)點(diǎn),最后得到的路徑也是越接近最優(yōu)的。

    以成功率P(如式(18)所示),即移動機(jī)器人到達(dá)指定位置這一指標(biāo)分析,CDM-D3QN-PER 比其他3 種算法有明顯提高,CDM-D3QN-PER 在無障礙環(huán)境下600 回合中,有501 次到達(dá)了目標(biāo)點(diǎn),是DQN 算法到達(dá)次數(shù)的2.84 倍;在有障礙環(huán)境下,600 回合中,有428 次到達(dá)了目標(biāo)點(diǎn),是DQN算法到達(dá)次數(shù)的2.80倍。

    在所有的600 回合中,Ng代表了成功完成任務(wù)的回合數(shù),N代表了訓(xùn)練中的全部回合。

    4 結(jié)束語

    本文在傳統(tǒng)DQN 算法的基礎(chǔ)上,提出了基于CDM-D3QN-PER 的路徑規(guī)劃方法。首先,該方法以D3QN 模型為基礎(chǔ),使Q 值函數(shù)的估計(jì)更加準(zhǔn)確。其次,在輸入端將多傳感器信息輸入到LSTM和CNN中,使環(huán)境信息得到更有效的處理。然后,PER 算法的利用給重要的樣本設(shè)置了優(yōu)先級,提高了樣本的利用率和網(wǎng)絡(luò)收斂的速度。最后,融入CDM 算法增加了機(jī)器人的內(nèi)在獎勵(lì)值,提高了對環(huán)境的探索率。實(shí)驗(yàn)結(jié)果表明,CDM-D3QN-PER 算法的收斂性遠(yuǎn)優(yōu)于其余三種算法,在移動機(jī)器人路徑規(guī)劃中具有更好的自適應(yīng)能力和穩(wěn)定性。

    猜你喜歡
    移動機(jī)器人機(jī)器人狀態(tài)
    移動機(jī)器人自主動態(tài)避障方法
    狀態(tài)聯(lián)想
    生命的另一種狀態(tài)
    基于Twincat的移動機(jī)器人制孔系統(tǒng)
    熱圖
    家庭百事通(2016年3期)2016-03-14 08:07:17
    堅(jiān)持是成功前的狀態(tài)
    山東青年(2016年3期)2016-02-28 14:25:52
    機(jī)器人來幫你
    認(rèn)識機(jī)器人
    機(jī)器人來啦
    認(rèn)識機(jī)器人
    h视频一区二区三区| 99久久精品国产亚洲精品| 亚洲精品国产精品久久久不卡| 亚洲国产欧美日韩在线播放| 国产成人精品久久二区二区免费| 国产成人啪精品午夜网站| 老司机午夜十八禁免费视频| 久久精品国产亚洲av高清一级| 国产亚洲精品第一综合不卡| 在线观看66精品国产| 99国产精品99久久久久| 一级,二级,三级黄色视频| 久热这里只有精品99| 妹子高潮喷水视频| 黄色a级毛片大全视频| av网站在线播放免费| 久久久久国产一级毛片高清牌| 亚洲五月婷婷丁香| 久久久久久久精品吃奶| 大陆偷拍与自拍| 亚洲精品美女久久久久99蜜臀| 国产精品久久久人人做人人爽| 国产在线观看jvid| 国产在线一区二区三区精| 亚洲欧美日韩另类电影网站| 精品久久久精品久久久| 亚洲成人手机| 亚洲精品av麻豆狂野| 色综合婷婷激情| 人人澡人人妻人| 亚洲avbb在线观看| 可以免费在线观看a视频的电影网站| a在线观看视频网站| 91av网站免费观看| 黄色视频不卡| 欧美成人免费av一区二区三区 | 成人国语在线视频| 极品教师在线免费播放| 国产淫语在线视频| 日韩欧美国产一区二区入口| 国产成人欧美| 亚洲自偷自拍图片 自拍| 免费一级毛片在线播放高清视频 | 男女之事视频高清在线观看| 亚洲成av片中文字幕在线观看| 欧美变态另类bdsm刘玥| 一区福利在线观看| 亚洲美女黄片视频| 97在线人人人人妻| 狠狠精品人妻久久久久久综合| 亚洲熟女毛片儿| 色婷婷久久久亚洲欧美| 王馨瑶露胸无遮挡在线观看| 50天的宝宝边吃奶边哭怎么回事| 高清在线国产一区| 可以免费在线观看a视频的电影网站| 欧美成狂野欧美在线观看| 欧美日韩成人在线一区二区| 国产av精品麻豆| 久久久水蜜桃国产精品网| 美女午夜性视频免费| 国产欧美日韩一区二区三区在线| 麻豆成人av在线观看| 又紧又爽又黄一区二区| 久久精品亚洲熟妇少妇任你| 又黄又粗又硬又大视频| 欧美人与性动交α欧美软件| 中文字幕高清在线视频| 黄色怎么调成土黄色| 亚洲情色 制服丝袜| 色视频在线一区二区三区| 久久久久精品国产欧美久久久| www.精华液| √禁漫天堂资源中文www| 一级片'在线观看视频| 国产极品粉嫩免费观看在线| 精品国产一区二区久久| 操出白浆在线播放| 一进一出抽搐动态| 男人舔女人的私密视频| 国产成+人综合+亚洲专区| 天天躁日日躁夜夜躁夜夜| 在线观看舔阴道视频| 在线观看舔阴道视频| 男男h啪啪无遮挡| 国产成人免费无遮挡视频| 啦啦啦中文免费视频观看日本| 真人做人爱边吃奶动态| 热re99久久国产66热| 老司机亚洲免费影院| 成年人午夜在线观看视频| 欧美日韩av久久| 国产精品熟女久久久久浪| 中文字幕精品免费在线观看视频| 9热在线视频观看99| 亚洲一区中文字幕在线| 亚洲精品一卡2卡三卡4卡5卡| 国产亚洲av高清不卡| 亚洲全国av大片| 涩涩av久久男人的天堂| 免费看a级黄色片| 欧美在线黄色| 国产精品久久久人人做人人爽| 久热这里只有精品99| 国产精品香港三级国产av潘金莲| 国产精品国产av在线观看| 亚洲男人天堂网一区| 欧美黄色片欧美黄色片| 在线天堂中文资源库| 日韩熟女老妇一区二区性免费视频| 国产精品一区二区在线观看99| 欧美激情极品国产一区二区三区| 天堂动漫精品| 亚洲九九香蕉| 亚洲七黄色美女视频| a级毛片在线看网站| 两性夫妻黄色片| 精品国产一区二区久久| 一本—道久久a久久精品蜜桃钙片| 亚洲第一欧美日韩一区二区三区 | 大片免费播放器 马上看| 黄色视频在线播放观看不卡| 国产精品99久久99久久久不卡| 一二三四在线观看免费中文在| 动漫黄色视频在线观看| 好男人电影高清在线观看| 国产真人三级小视频在线观看| 一本一本久久a久久精品综合妖精| 欧美黄色片欧美黄色片| 香蕉丝袜av| 青草久久国产| 午夜老司机福利片| 精品午夜福利视频在线观看一区 | 天天躁日日躁夜夜躁夜夜| 老熟妇乱子伦视频在线观看| 在线观看www视频免费| 乱人伦中国视频| 亚洲国产看品久久| 人人妻人人爽人人添夜夜欢视频| 十八禁网站网址无遮挡| 亚洲人成77777在线视频| 亚洲国产精品一区二区三区在线| 欧美日韩视频精品一区| 久久精品国产99精品国产亚洲性色 | 国产1区2区3区精品| 人人妻人人添人人爽欧美一区卜| 男男h啪啪无遮挡| 成人特级黄色片久久久久久久 | 国产免费福利视频在线观看| 高清毛片免费观看视频网站 | 久久久久久亚洲精品国产蜜桃av| 欧美中文综合在线视频| 精品少妇久久久久久888优播| 热99国产精品久久久久久7| 精品福利观看| 悠悠久久av| 天天躁狠狠躁夜夜躁狠狠躁| 两个人免费观看高清视频| 黄色视频不卡| 亚洲av日韩在线播放| 一边摸一边抽搐一进一小说 | 欧美精品一区二区免费开放| av福利片在线| 高清在线国产一区| 王馨瑶露胸无遮挡在线观看| 又紧又爽又黄一区二区| 黑人巨大精品欧美一区二区蜜桃| 久久精品国产亚洲av香蕉五月 | 亚洲久久久国产精品| 黄色视频不卡| 亚洲精品自拍成人| 99热国产这里只有精品6| 国产精品 欧美亚洲| 欧美成人午夜精品| 免费日韩欧美在线观看| 亚洲欧美激情在线| 免费黄频网站在线观看国产| 亚洲精品美女久久久久99蜜臀| 考比视频在线观看| 人人妻人人爽人人添夜夜欢视频| kizo精华| 一夜夜www| 这个男人来自地球电影免费观看| 又大又爽又粗| 99久久精品国产亚洲精品| 欧美精品av麻豆av| 在线观看免费高清a一片| 岛国在线观看网站| 超碰97精品在线观看| 国产淫语在线视频| 90打野战视频偷拍视频| 中亚洲国语对白在线视频| 成人黄色视频免费在线看| 大码成人一级视频| 50天的宝宝边吃奶边哭怎么回事| 午夜91福利影院| 12—13女人毛片做爰片一| 午夜福利乱码中文字幕| 成人亚洲精品一区在线观看| 亚洲av国产av综合av卡| 自拍欧美九色日韩亚洲蝌蚪91| 中文字幕av电影在线播放| 在线 av 中文字幕| 岛国在线观看网站| 99精品在免费线老司机午夜| 久热这里只有精品99| 久久久久久久大尺度免费视频| 国产成人精品在线电影| 人人妻,人人澡人人爽秒播| 午夜视频精品福利| h视频一区二区三区| 国产精品一区二区在线观看99| 桃红色精品国产亚洲av| 高清av免费在线| 美国免费a级毛片| 韩国精品一区二区三区| 国产精品免费一区二区三区在线 | 一本综合久久免费| 国产视频一区二区在线看| 亚洲少妇的诱惑av| 美女高潮到喷水免费观看| 两性夫妻黄色片| 法律面前人人平等表现在哪些方面| 精品高清国产在线一区| 亚洲精品中文字幕在线视频| 日韩视频在线欧美| 午夜福利免费观看在线| 久久精品亚洲av国产电影网| 老司机午夜福利在线观看视频 | 黄色成人免费大全| 国产精品麻豆人妻色哟哟久久| 国产在线免费精品| 色精品久久人妻99蜜桃| 午夜老司机福利片| 天堂8中文在线网| 午夜激情av网站| 女人高潮潮喷娇喘18禁视频| 欧美黑人精品巨大| 黄色视频,在线免费观看| 国产欧美日韩一区二区精品| 大片电影免费在线观看免费| 午夜福利影视在线免费观看| 美女视频免费永久观看网站| 天天影视国产精品| 久久久国产精品麻豆| 久久午夜亚洲精品久久| 久久久精品94久久精品| 在线十欧美十亚洲十日本专区| 欧美+亚洲+日韩+国产| 蜜桃在线观看..| 欧美精品一区二区大全| 亚洲国产av影院在线观看| 啦啦啦视频在线资源免费观看| 麻豆成人av在线观看| 一区福利在线观看| 高清黄色对白视频在线免费看| 热99re8久久精品国产| 日日爽夜夜爽网站| 动漫黄色视频在线观看| 人妻一区二区av| 国产成人精品无人区| 成年女人毛片免费观看观看9 | 99热国产这里只有精品6| 国产在线精品亚洲第一网站| 欧美日韩精品网址| 丁香六月天网| 美女高潮到喷水免费观看| 国产精品成人在线| 法律面前人人平等表现在哪些方面| 一区二区三区国产精品乱码| 乱人伦中国视频| 大陆偷拍与自拍| 亚洲成a人片在线一区二区| 色播在线永久视频| 悠悠久久av| 高清视频免费观看一区二区| 超色免费av| 成人国产av品久久久| 极品少妇高潮喷水抽搐| 国产午夜精品久久久久久| 国产色视频综合| 久久久国产一区二区| 国精品久久久久久国模美| 日本黄色视频三级网站网址 | 国产精品麻豆人妻色哟哟久久| 狠狠狠狠99中文字幕| 亚洲精品自拍成人| av又黄又爽大尺度在线免费看| 99久久99久久久精品蜜桃| 大型黄色视频在线免费观看| 日本黄色日本黄色录像| 久9热在线精品视频| 精品第一国产精品| 亚洲熟女毛片儿| 亚洲,欧美精品.| 日韩大码丰满熟妇| 久久久精品94久久精品| av免费在线观看网站| 一区二区日韩欧美中文字幕| 18禁美女被吸乳视频| 欧美黄色淫秽网站| 精品久久久精品久久久| 精品亚洲乱码少妇综合久久| 99re6热这里在线精品视频| 国产熟女午夜一区二区三区| 国产高清国产精品国产三级| 国产精品久久久久久精品电影小说| 一个人免费看片子| 国产av精品麻豆| 国产成人欧美在线观看 | 国产成人免费无遮挡视频| 天天躁夜夜躁狠狠躁躁| 国产精品九九99| 精品一区二区三区四区五区乱码| 丝袜美足系列| 日韩欧美国产一区二区入口| 99精国产麻豆久久婷婷| 亚洲免费av在线视频| 欧美精品啪啪一区二区三区| 无遮挡黄片免费观看| 日韩欧美免费精品| 一本—道久久a久久精品蜜桃钙片| 中文字幕精品免费在线观看视频| 午夜福利视频在线观看免费| 国内毛片毛片毛片毛片毛片| 欧美日韩亚洲国产一区二区在线观看 | 免费日韩欧美在线观看| 午夜免费成人在线视频| 成在线人永久免费视频| 国产精品亚洲av一区麻豆| 欧美 亚洲 国产 日韩一| 久热这里只有精品99| 亚洲一区二区三区欧美精品| www.熟女人妻精品国产| 黑人巨大精品欧美一区二区mp4| 久久中文看片网| 成人黄色视频免费在线看| 日日夜夜操网爽| 好男人电影高清在线观看| 久久精品人人爽人人爽视色| 一区二区av电影网| 色播在线永久视频| 丁香欧美五月| 老鸭窝网址在线观看| 法律面前人人平等表现在哪些方面| 老司机在亚洲福利影院| 亚洲第一青青草原| 麻豆国产av国片精品| 黄色毛片三级朝国网站| 亚洲成人免费av在线播放| 午夜福利在线免费观看网站| 亚洲国产av影院在线观看| 啦啦啦在线免费观看视频4| av天堂在线播放| 欧美激情高清一区二区三区| 色综合欧美亚洲国产小说| 岛国在线观看网站| 国产一卡二卡三卡精品| 欧美乱妇无乱码| 日日爽夜夜爽网站| 国产精品影院久久| 女人久久www免费人成看片| 精品久久久久久电影网| 99九九在线精品视频| 97在线人人人人妻| 亚洲黑人精品在线| 9色porny在线观看| 中文字幕制服av| 91成年电影在线观看| 一进一出抽搐动态| 中文字幕av电影在线播放| 狠狠精品人妻久久久久久综合| 黄色视频,在线免费观看| 欧美一级毛片孕妇| www日本在线高清视频| 久久久精品免费免费高清| 18在线观看网站| 日日夜夜操网爽| 亚洲欧美色中文字幕在线| 一级片免费观看大全| 黄色毛片三级朝国网站| 亚洲伊人色综图| 日韩视频一区二区在线观看| 精品午夜福利视频在线观看一区 | 搡老岳熟女国产| 久久精品亚洲av国产电影网| 丁香六月欧美| 日本五十路高清| a在线观看视频网站| 中文字幕高清在线视频| 日韩制服丝袜自拍偷拍| 日本a在线网址| 人人妻人人添人人爽欧美一区卜| 亚洲专区中文字幕在线| 亚洲精品中文字幕一二三四区 | 国产精品久久久av美女十八| 色精品久久人妻99蜜桃| 免费在线观看日本一区| 日韩欧美国产一区二区入口| 母亲3免费完整高清在线观看| 久久久久久久久免费视频了| 飞空精品影院首页| 男女之事视频高清在线观看| 天堂8中文在线网| 国产野战对白在线观看| 69av精品久久久久久 | 国产淫语在线视频| 中文欧美无线码| 咕卡用的链子| 精品国产一区二区三区四区第35| 777米奇影视久久| 欧美日韩av久久| 十八禁网站网址无遮挡| 桃花免费在线播放| 国产日韩欧美视频二区| 亚洲精品美女久久av网站| 国产男女内射视频| 老熟妇仑乱视频hdxx| 日韩欧美免费精品| 国产人伦9x9x在线观看| 老熟女久久久| 1024视频免费在线观看| 美女福利国产在线| 国产淫语在线视频| 午夜精品久久久久久毛片777| 757午夜福利合集在线观看| 精品乱码久久久久久99久播| 亚洲成a人片在线一区二区| 亚洲精品成人av观看孕妇| 人人妻人人澡人人爽人人夜夜| 色综合欧美亚洲国产小说| 国产亚洲一区二区精品| 少妇裸体淫交视频免费看高清 | av福利片在线| 99九九在线精品视频| 国产91精品成人一区二区三区 | 久久久久久久大尺度免费视频| 热99久久久久精品小说推荐| 国产免费现黄频在线看| 成人三级做爰电影| 久久久久久免费高清国产稀缺| 久久中文字幕人妻熟女| 欧美大码av| 国产在线观看jvid| 青草久久国产| 国产精品久久久久成人av| 欧美老熟妇乱子伦牲交| av片东京热男人的天堂| 热re99久久精品国产66热6| 国产精品av久久久久免费| 丰满迷人的少妇在线观看| 波多野结衣av一区二区av| 久久午夜亚洲精品久久| 激情在线观看视频在线高清 | 国产午夜精品久久久久久| av又黄又爽大尺度在线免费看| 欧美日韩亚洲高清精品| 精品免费久久久久久久清纯 | 人人妻人人添人人爽欧美一区卜| 精品人妻1区二区| 又大又爽又粗| 欧美 亚洲 国产 日韩一| 丁香欧美五月| 乱人伦中国视频| 亚洲精品粉嫩美女一区| 操出白浆在线播放| 99九九在线精品视频| 午夜福利乱码中文字幕| 一级片免费观看大全| 黄色丝袜av网址大全| 女人爽到高潮嗷嗷叫在线视频| 亚洲专区国产一区二区| 亚洲成av片中文字幕在线观看| e午夜精品久久久久久久| 亚洲精品成人av观看孕妇| 黄色视频不卡| 亚洲精品国产一区二区精华液| 狠狠精品人妻久久久久久综合| 国产成人精品无人区| 色综合婷婷激情| 1024香蕉在线观看| 中文字幕色久视频| 国产成人欧美| 大型av网站在线播放| 日本av手机在线免费观看| 国产真人三级小视频在线观看| 亚洲一卡2卡3卡4卡5卡精品中文| 午夜激情av网站| 成人免费观看视频高清| 亚洲第一欧美日韩一区二区三区 | 国产福利在线免费观看视频| 欧美一级毛片孕妇| 美女国产高潮福利片在线看| 动漫黄色视频在线观看| 成人免费观看视频高清| 国产人伦9x9x在线观看| 好男人电影高清在线观看| 男女免费视频国产| 中文字幕av电影在线播放| 啦啦啦免费观看视频1| 国产精品成人在线| 激情在线观看视频在线高清 | 天堂动漫精品| 自拍欧美九色日韩亚洲蝌蚪91| 中文字幕制服av| 亚洲一区二区三区欧美精品| 又黄又粗又硬又大视频| 黄色视频不卡| 久久人妻av系列| 一个人免费看片子| 亚洲精品乱久久久久久| 他把我摸到了高潮在线观看 | 黑丝袜美女国产一区| 国产精品一区二区精品视频观看| 亚洲天堂av无毛| 91成人精品电影| 制服人妻中文乱码| 精品久久久久久久毛片微露脸| 成年人午夜在线观看视频| 成人手机av| 极品少妇高潮喷水抽搐| 夫妻午夜视频| 五月开心婷婷网| 久久精品亚洲精品国产色婷小说| 国产精品 国内视频| 每晚都被弄得嗷嗷叫到高潮| 可以免费在线观看a视频的电影网站| 在线永久观看黄色视频| 成人精品一区二区免费| 国产成人精品无人区| 成人av一区二区三区在线看| 亚洲第一欧美日韩一区二区三区 | 国产精品免费大片| 免费在线观看完整版高清| 久9热在线精品视频| 亚洲成人免费电影在线观看| 国产一区二区在线观看av| 国产主播在线观看一区二区| 久久青草综合色| 亚洲欧美一区二区三区黑人| 久久久精品区二区三区| 性少妇av在线| 久久久欧美国产精品| 精品高清国产在线一区| 亚洲一码二码三码区别大吗| 亚洲精品国产区一区二| 日韩中文字幕视频在线看片| 欧美黑人欧美精品刺激| 无限看片的www在线观看| 麻豆av在线久日| 国产在线一区二区三区精| 国产精品 欧美亚洲| 久久久水蜜桃国产精品网| 欧美 亚洲 国产 日韩一| 俄罗斯特黄特色一大片| 国产成人av激情在线播放| 精品国产一区二区三区四区第35| 精品国产乱码久久久久久小说| www日本在线高清视频| 人妻 亚洲 视频| 无遮挡黄片免费观看| 国产黄频视频在线观看| 777久久人妻少妇嫩草av网站| 久久中文字幕人妻熟女| 午夜免费鲁丝| 国产精品麻豆人妻色哟哟久久| 女性生殖器流出的白浆| 亚洲精品美女久久av网站| 日韩精品免费视频一区二区三区| 国产麻豆69| 人人妻,人人澡人人爽秒播| 嫁个100分男人电影在线观看| 亚洲午夜理论影院| 国产欧美日韩精品亚洲av| 制服人妻中文乱码| 久久久欧美国产精品| 夫妻午夜视频| 一区福利在线观看| 亚洲精品乱久久久久久| 精品人妻1区二区| aaaaa片日本免费| 久久人人97超碰香蕉20202| 亚洲人成电影免费在线| 亚洲专区中文字幕在线| 美女主播在线视频| 悠悠久久av| 国产av又大| 午夜精品国产一区二区电影| 美女主播在线视频| 午夜精品国产一区二区电影| 女警被强在线播放| 不卡一级毛片| 日韩欧美一区二区三区在线观看 | 一区二区三区乱码不卡18| 免费观看av网站的网址| 9热在线视频观看99| 又大又爽又粗| 久久婷婷成人综合色麻豆| 女警被强在线播放| 无遮挡黄片免费观看| 夫妻午夜视频| 精品少妇黑人巨大在线播放| 99九九在线精品视频| 国产福利在线免费观看视频| 国产亚洲一区二区精品| 国产国语露脸激情在线看| 精品亚洲成a人片在线观看| 久久久国产一区二区| 久热这里只有精品99| 一级毛片女人18水好多| 大陆偷拍与自拍| 国产精品国产高清国产av | 午夜老司机福利片| 搡老岳熟女国产| 国产日韩一区二区三区精品不卡|