• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強化學(xué)習(xí)的移動機器人導(dǎo)航策略研究

    2019-08-29 08:03:36
    計算機測量與控制 2019年8期
    關(guān)鍵詞:移動機器人卷積機器人

    (廣東工業(yè)大學(xué) 計算機學(xué)院,廣州 510006)

    0 引言

    移動機器人的研究起源月上世紀(jì)60年代末,最初是用來在惡劣、危險的條件下或者復(fù)雜環(huán)境中來代替人類完成工作。移動機器人技術(shù)處于當(dāng)前科技研究的前沿,代表著當(dāng)代高新技術(shù)的發(fā)展方向,是各國競相研究發(fā)展的重點,是當(dāng)前科學(xué)研究的熱點之一。隨著計算機技術(shù)、傳感技術(shù)、網(wǎng)絡(luò)技術(shù)和通信技術(shù)的飛速發(fā)展,移動機器人技術(shù)也得到了更加深入的而廣泛的研究。

    現(xiàn)在移動機器人的研究重點逐漸向智能化發(fā)展,如何讓機器人體現(xiàn)人工智能是目前移動機器人的研究難點[1-2]。移動機器人的智能化即是實現(xiàn)其高度的自主性,能夠使機器人在沒有人的引導(dǎo)下,無需對環(huán)境進行特殊的限制和改變的情況下,能夠有目的地、準(zhǔn)確的完成任務(wù),這需要機器人具備環(huán)境感知、行為決策、動作控制等能力。在移動機器人的智能化的研究中,導(dǎo)航技術(shù)的保障是其研究的核心,也是其實現(xiàn)智能化以及完全自主的關(guān)鍵技術(shù)和前提。

    移動機器人的導(dǎo)航是指“基于移動機器人自身攜帶的傳感器感知的周圍的環(huán)境信息以及移動機器人的自身狀態(tài)信息,在包含有限數(shù)量障礙物的環(huán)境中,安全地實現(xiàn)移動機器人面向目標(biāo)的運動”。隨著現(xiàn)在機器人應(yīng)用越來越廣泛,應(yīng)用領(lǐng)域不斷拓展,機器人需要完成的任務(wù)也越來越復(fù)雜,現(xiàn)階段的大部分機器人在確定的、靜態(tài)的、單一環(huán)境中執(zhí)行導(dǎo)航任務(wù),可以通過技術(shù)人員對機器人固定的導(dǎo)航任務(wù)人為的預(yù)先編程來實現(xiàn),但這樣的機器人往往不具備應(yīng)變突發(fā)事件的能力。對于場景的動態(tài)變化、機器人的“綁架”等問題,設(shè)計人員難以對機器人遇到的問題作出合理的預(yù)測以及預(yù)設(shè)相應(yīng)決策,都不能得到有效的解決。

    不論是傳統(tǒng)的機器人導(dǎo)航控制方法還是針對特定任務(wù)的預(yù)處理,要解決機器人應(yīng)對突發(fā)事件的處理必須具備比較強的對周圍環(huán)境信息感知和分析能力以及之后的動作執(zhí)行能力。由此,基于強化學(xué)習(xí)(Reinforcement Learning,RL)的機器人導(dǎo)航成為國內(nèi)外學(xué)者對于該領(lǐng)域的研究熱點?;趶娀瘜W(xué)習(xí)的導(dǎo)航優(yōu)勢在于:模型簡單、算法編程簡易、魯棒性強。但是傳統(tǒng)的強化學(xué)習(xí)方法由于環(huán)境的多樣性和復(fù)雜性,存在學(xué)習(xí)時間長、收斂速度慢、機器人狀態(tài)信息提取困難等問題。近年來深度學(xué)習(xí)的研究進展能夠有效的彌補強化學(xué)習(xí)的劣勢,谷歌的人工智能研究團隊DeepMind創(chuàng)新地將具有感知能力的深度學(xué)習(xí)(Deep Learning,DL)相結(jié)合,開創(chuàng)了一個新的研究熱點,即深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[3],因此本文使用基于DRL的研究策略實現(xiàn)機器人在復(fù)雜環(huán)境下的導(dǎo)航。基于DRL的導(dǎo)航策略研究采用端對端的學(xué)習(xí)方式,利用經(jīng)驗回放機制,將包含機器人感知到的周圍環(huán)境信息、當(dāng)前所處的狀態(tài)以及動作產(chǎn)生反饋的圖像信息存儲到經(jīng)驗回放池中,再定期每一個時間步從經(jīng)驗回放池隨機提取一組參數(shù)作為輸入傳遞到卷積神經(jīng)網(wǎng)絡(luò)中來不斷的迭代更新網(wǎng)絡(luò)參數(shù),最終求取網(wǎng)絡(luò)參數(shù)的最大值,即為一次導(dǎo)航的最優(yōu)策略。

    1 相關(guān)研究

    1.1 卷積神經(jīng)網(wǎng)絡(luò)

    卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN[4])從本質(zhì)上來說是一個前向的反饋神經(jīng)網(wǎng)絡(luò),來源于生物視覺神經(jīng)結(jié)構(gòu)啟發(fā),是以最簡化預(yù)操作為目的的多層感知器的變形。CNN提供了一種端對端的學(xué)習(xí)模型,通過把圖像作為參數(shù)輸入到模型中,使用傳統(tǒng)的梯度下降的方法對其進行訓(xùn)練,經(jīng)過訓(xùn)練后的CNN網(wǎng)絡(luò)能夠?qū)W習(xí)圖像中的特征,最終完成對圖像特征的提取,所提取到的特征具有平移,旋轉(zhuǎn)不變性[5]等特性。近年來,CNN被很好的應(yīng)用在了強化學(xué)習(xí)的任務(wù)上,如Atari游戲,機器操縱和模仿學(xué)習(xí)等方面。

    卷積神經(jīng)網(wǎng)絡(luò)主要包括4個方面的技術(shù):1)局部感知域,當(dāng)需要訓(xùn)練的參數(shù)過多時,全連接網(wǎng)絡(luò)訓(xùn)練難度極大,極難收斂。因此CNN與人類視覺類似采用局部感知信息,低層次神經(jīng)元感知局部信息,高層次神經(jīng)元整合低層次神經(jīng)元感知的局部信息得到全局信息,由此大大降低了訓(xùn)練參數(shù)的量級;2)參數(shù)共享,利用對圖像順序的進行卷積的方式提取圖像的某種特征,將多個具有相同統(tǒng)計特征的參數(shù)統(tǒng)一,進而進一步降低訓(xùn)練參數(shù)的量級;3)多卷積核,對圖像進行的一個卷積便是一種提取方式,通常在對一幅圖像來說,單個卷積核提取的特征是遠遠不夠的,因此使用多重卷積核才能提取多種不同的特征;4)池化,解決使用特征圖訓(xùn)練分類器時可能產(chǎn)生的特征維度過多計算復(fù)雜、過擬合等問題。近年來卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于人臉識別、字符識別、行為檢測和目標(biāo)檢測等方面。

    1.2 強化學(xué)習(xí)

    強化學(xué)習(xí)[6]的基本原理是利用自身與周圍環(huán)境的即時交互產(chǎn)生的反饋信號來對所采取的行動進行評價,如果反饋信號越強,代表環(huán)境對這個動作的正獎勵,則這個動作的趨勢便加強;反之,這個動作的產(chǎn)生趨勢就減弱。強化學(xué)習(xí)的本質(zhì)上就是個不斷試錯來逐步改進策略的過程,目的就是學(xué)習(xí)一個行為策略來獲得環(huán)境最大的獎勵。

    強化學(xué)習(xí)的基本模型如圖1所示,智能體agent采取一個動作a作用到環(huán)境中,環(huán)境接收到這個動作后,產(chǎn)生一個獎勵r反饋給agent,agent再根據(jù)反饋回來的獎勵r和當(dāng)前的環(huán)境狀態(tài)信息e來選擇下一個動作,如此循環(huán)往復(fù),不斷改進策略。

    圖1 強化學(xué)習(xí)基本模型

    1.2.1 馬爾科夫模型與貝爾曼方程

    強化學(xué)習(xí)的目的可以轉(zhuǎn)化為求解馬爾科夫決策過程(markov decision process,MDP)的最優(yōu)策略,MDP的本質(zhì)是:下一狀態(tài)的概率和獎勵值由且僅由當(dāng)前狀態(tài)和動作決定,與其他任何歷史狀態(tài)和歷史動作無關(guān)。

    (1)

    用價值函數(shù)v表示MDP求解的值,價值函數(shù)模型如式(2)、(3)所示:

    (2)

    vπ(s)=Eπ[r0+γr1+γ2r2+γ3r3+…|s0=s]=

    Eπ[r0+γE[γr1+γ2r2+γ3r3+…]|s0=s]=

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s]

    (3)

    其中:γ表示折扣系數(shù),代表后續(xù)動作對當(dāng)前值的影響程度。其取值范圍是[0,1],0表示只考慮當(dāng)前動作,不考慮后續(xù)動作的影響,而1表示當(dāng)前動作和后續(xù)每步動作都有均等的影響。通常為了避免使問題陷入局部最優(yōu),隨著步數(shù)的增加,折扣系數(shù)應(yīng)當(dāng)減小,影響變小。使用貝爾曼方程來求解價值函數(shù)。求解過程如式(4)、(5)所示:

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s]

    (4)

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]

    (5)

    在式(4)中,π表示當(dāng)前的策略,Qπ(s,a)是針對實際問題在vπ(s)基礎(chǔ)上引入的動作值a,Qπ(s,a)表示動作值函數(shù),式(5)表示動作值函數(shù)模型。對貝爾曼方程求解最優(yōu)解得到貝爾曼最優(yōu)方程(6)、(7)為:

    (6)

    (7)

    求解上述貝爾曼最優(yōu)方程(6)、(7)有兩種方法:策略迭代和價值迭代。

    1.2.2 策略迭代

    策略迭代共有兩個步驟:策略評估和策略改進,首先對已有的策略進行評估,獲得狀態(tài)值函數(shù),然后根據(jù)評估結(jié)果,如果新策略更好則取代之前策略,否則,保持原有策略。具體算法流程如下所示:

    1)策略評估

    Inputπ(輸入策略π)

    Initialize an arrayv(s)=0,for all s∈δ+

    Repeat

    Δ←0

    For eachS∈δ:

    temp←v(s)

    v(s)←∑aπ(a|s)∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]Δ←max(Δ,|temp-v(s)|)

    UntilΔ<θ(a smalll positive number)

    Outputv≈vπ

    2)策略迭代

    policy-stable←true

    For eachs∈δ:

    temp←π(s)

    π(s)←argmaxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    Iftemp≠π(s),then policy-stable←false

    If policy-stable,then stop and returnvandπ

    Else go to evalue policy

    1.2.3 值迭代

    值迭代使用貝爾曼最優(yōu)方程來更新value,經(jīng)過反復(fù)迭代使得最終的value收斂于Vπ,即在當(dāng)前狀態(tài)下最優(yōu)值為value時,該最優(yōu)值value對應(yīng)的策略即為最優(yōu)策略。其算法流程如下:

    Initialize arrayvarbitrarily(e.g.,v(s)=0for all

    s∈δ′)

    Repeat

    Δ←0

    For eachs∈δ

    temp←v(s)

    v(s)←maxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    Δ←max(Δ,|temp-v(s)|)

    UntilΔ<θ(a small positive number)

    Output a determinisitc policyπ,such like

    π(s)=argmaxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    1.3 深度強化學(xué)習(xí)

    在高級人工智能領(lǐng)域,智能體感知和決策能力是衡量智能體智能化的關(guān)鍵性指標(biāo)。強化學(xué)習(xí)雖然具有優(yōu)秀的決策能力,但是其應(yīng)用大部分均依賴于人工提取特征,難以處理高維度狀態(tài)空間下的問題。而深度學(xué)習(xí)具有優(yōu)秀的感知能力,能夠從高維原始數(shù)據(jù)提取特征。這兩者優(yōu)勢互補、結(jié)合成深度強化學(xué)習(xí)。目前DRL技術(shù)在游戲[7-8],機器人控制[9-10],參數(shù)優(yōu)化[11]和機器視覺[12]等領(lǐng)域均有廣泛的應(yīng)用。

    1.3.1 基于值函數(shù)

    基于值函數(shù)的深度強化學(xué)習(xí)最典型的的代表就是Mnih[7]等人將CNN與Q學(xué)習(xí)算法[14-15]結(jié)合提出的深度Q網(wǎng)絡(luò)(Deep Q-network,DQN)模型。其基本原理就是將Q學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)化,利用深度卷積神經(jīng)網(wǎng)絡(luò)不斷迭代更新值函數(shù)的優(yōu)化目標(biāo),即目標(biāo)Q值,從而得到最優(yōu)的學(xué)習(xí)策略。

    1.3.2 基于策略梯度

    基于值函數(shù)的深度強化學(xué)習(xí)主要用于解決在離散動作空間下的任務(wù),對于連續(xù)動作空間的任務(wù)采用基于策略梯度的深度強化學(xué)習(xí)算法可以或得更好的決策效果。策略梯度通過不斷計算策略的總獎勵期望值關(guān)于策略參數(shù)的梯度來更新參數(shù),得到最優(yōu)策略[13]。其優(yōu)勢在于:直接優(yōu)化策略的總獎勵期望,以端對端的方式直接在策略空間里搜索最優(yōu)策略,比基于DQN的模型適用范圍更廣泛,優(yōu)化效果也更好。

    2 基于DQN的移動機器人導(dǎo)航策略研究

    本文將DQN網(wǎng)絡(luò)、經(jīng)驗回放機制、搜索與利用平衡策略[16]以及隨機梯度下降法等方法結(jié)合應(yīng)用到機器人導(dǎo)航研究中,提出一種基于深度強化學(xué)習(xí)的移動機器人導(dǎo)航策略的研究方法。通過OpenCV仿真平臺的檢驗,驗證本文提出的算法能夠高效準(zhǔn)確的完成導(dǎo)航任務(wù)。

    2.1 DQN網(wǎng)絡(luò)參數(shù)預(yù)處理

    OpenCV仿真平臺生成的地圖原始圖像是RGB圖像,有3個通道。直接將其輸入網(wǎng)絡(luò)計算量較大。因此本文采用了基本的圖像預(yù)處理來降低輸入維度,通過將圖像等比例縮放至大小為80×80,然后利用二值法將其轉(zhuǎn)換為只有兩個通道的灰度圖像,這樣可以降低輸入?yún)?shù)一個維度和數(shù)據(jù)量,有利于之后網(wǎng)絡(luò)的特征提取和處理。

    2.2 模型結(jié)構(gòu)與圖像處理過程

    本文采用的網(wǎng)絡(luò)模型是2015年,由DeepMind提出的深度Q網(wǎng)絡(luò)(deep Q network,DQN)[3],DQN的輸入是經(jīng)過預(yù)處理后當(dāng)前時刻連續(xù)的4幅圖像。經(jīng)過3個卷積層和兩個全連接層的處理后,最終輸出動作的Q值。圖2表示DQN的模型結(jié)構(gòu)。

    圖2 DQN網(wǎng)絡(luò)模型結(jié)構(gòu)

    圖3描述了本文采用的DQN網(wǎng)絡(luò)模型對圖像進行處理的具體過程。

    圖3 圖像處理過程

    1)將經(jīng)過預(yù)處理后的連續(xù)四幅圖像80×80×4(4表示4個通道,四張圖即是4個通道)經(jīng)過卷積核為8×8×4×32,步長為4的卷積,得到32張大小為20×20的特征圖,即20×20×32。將其進行池化核為2×2的池化得到10×10的圖像,即此時為10×10×32;

    2)將上一步所得圖像進行卷積核為4×4×32×64,步長為2的卷積得到64張5×5的圖像,即5×5×64;

    3)再進行一次卷積核為3×3×64×64,步長為1的卷積,此時依舊得到5×5×64的圖像,但此時經(jīng)過了再一輪卷積的圖像,其圖像信息更加抽象,更具全局性;

    4)對第二次卷積后5×5×64的圖像進行1 600×512的全連接,得到一個512維的特征向量,即512×1;

    5)再次進行全連接,最終輸出二位向量[0,1]和[1,0],表示仿真實驗中的正反饋和負反饋。

    2.3 DQN算法訓(xùn)練流程

    DQN算法是在傳統(tǒng)q學(xué)習(xí)算法的基礎(chǔ)上將其神經(jīng)網(wǎng)絡(luò)化實現(xiàn)的。傳統(tǒng)q學(xué)習(xí)是最早的在線學(xué)習(xí)算法,是基于值迭代的具有代表性的強化學(xué)習(xí)算法。圖4描述了DQN算法的訓(xùn)練流程。

    圖4 DQN訓(xùn)練流程圖

    具體算法流程為:

    1)初始化樣本池D,容量為N;

    2)將卷積神經(jīng)網(wǎng)絡(luò)進行隨機權(quán)重初始化,得到初始Q函數(shù);

    3)進入循環(huán)A,i=1,…,M;

    4)選擇初始狀態(tài),對仿真環(huán)境圖像進行預(yù)處理;

    5)進入循環(huán)B,t=1,…,T;

    6)采用隨機策略ε選擇一個動作at;

    7)執(zhí)行動作at,得到獎勵rt和下一時刻仿真環(huán)境圖像xt+1;

    8)令St+1=St,at,xt+1,對狀態(tài)進行預(yù)處理φt+1=φ(st+1);

    9)將(φt,at,rt,φt+1)存儲到樣本池D中;

    10)從樣本池D中隨機采集m個訓(xùn)練樣本(φj,aj,rj,φj+1);

    11)令樣本標(biāo)簽值為:

    12)用梯度下降法更新網(wǎng)絡(luò)參數(shù),計算損失函數(shù);

    13)退出循環(huán)B;

    14)退出循環(huán)A。

    DQN算法在傳統(tǒng)的Q學(xué)習(xí)算法上進行了改進,采用經(jīng)驗回放機制和固定目標(biāo)網(wǎng)絡(luò)兩個關(guān)鍵技術(shù)來提升算法的穩(wěn)定性。

    經(jīng)驗回放機制:經(jīng)驗回放最初是由Linux在其博士論文中提出[17],其原理是將訓(xùn)練過程中的樣本依次存儲在樣本池中,訓(xùn)練時再從中隨機抽取一定量的樣本,使用隨機梯度下降法(SGD)更新網(wǎng)絡(luò)參數(shù)。經(jīng)驗回放機制的使用,對歷史數(shù)據(jù)也能進行重復(fù)采樣,提高了數(shù)據(jù)的使用效率,同時也打破了樣本間的關(guān)聯(lián),使樣本間相互獨立,提升的算法的穩(wěn)定性。

    固定目標(biāo)網(wǎng)絡(luò):將q網(wǎng)絡(luò)迭代優(yōu)化的目標(biāo)Q值采用時序差分法由另一個單獨的較慢的目標(biāo)網(wǎng)絡(luò)產(chǎn)生,這樣提高了算法的收斂性。

    DQN算法的主要特點有3個:

    1)是一種端到端的訓(xùn)練方法,以原始圖像和獎勵函數(shù)作為的輸入和每個動作和對應(yīng)Q值的輸出相映射;

    2)使用經(jīng)驗回放機制和固定目標(biāo)網(wǎng)絡(luò)提升整個訓(xùn)練過程的穩(wěn)定性和收斂性;

    3)可以再不同的仿真平臺中采用大致相同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練算法,僅需根據(jù)訓(xùn)練情況調(diào)整相應(yīng)的獎勵函數(shù)。

    2.4 搜索與利用平衡策略

    在2.3節(jié)中的DQN算法中步驟(6)使用了一個策略來生成移動機器人的下一步動作,這個策略并不是求解優(yōu)化過程得到的策略,是單獨用來生成機器人動作的策略。因此,本文所用的Q-learning算法屬于off-policy,整個DQN的算法流程也是無模型的,只考慮當(dāng)前的環(huán)境信息和獎勵函數(shù)reward的反饋,即model-free的方法。一般來說,使用策略生成機器人動作主要有兩種策略:

    1)greedy policy,即貪心策略,讓機器人盡可能朝獎勵函數(shù)大的方向行進,當(dāng)機器人執(zhí)行一個動作如果得到的獎勵是正的,積極的則下一次繼續(xù)朝該方向行進,反之,則朝其他方向前進。

    2)randomized policy,即隨機策略,不考慮機器人執(zhí)行動作后得到的反饋,每次都均等的隨機選取一個動作執(zhí)行。

    考慮到greedy policy容易導(dǎo)致過擬合的現(xiàn)象,使得機器人導(dǎo)航的策略陷入局部最優(yōu),只能執(zhí)行單一或少數(shù)情況下的導(dǎo)航,不具備良好的泛化能力。因此,本文采用randomized policy來隨機生成機器人的動作,相應(yīng)的也增加了一定的訓(xùn)練時間來保證良好實驗的效果。

    3 實驗仿真與分析

    3.1 實驗平臺描述

    本文仿真實驗使用的平臺如表1所示。

    表1 仿真使用平臺

    使用OpenCV構(gòu)建的移動機器人仿真實驗環(huán)境如圖5所示,仿真環(huán)境是由一個800*800像素大小的圖像構(gòu)成,其中黑色邊框代表圍墻,黑色矩形代表障礙物,圓點表示出發(fā)點,方塊表示導(dǎo)航的目的地,起點和終點均是隨機出現(xiàn)在地圖中非障礙物的地方。

    圖5 移動機器人仿真環(huán)境

    3.2 實驗結(jié)果

    3.2.1 初始地圖下的導(dǎo)航

    圖6(a)和圖6(b)分別展示地圖環(huán)境未發(fā)生變化時,兩次機器人從隨機起點到隨機終點的順利導(dǎo)航。如圖中所示,機器人有上下左右4個方向維度的動作,每次5個像素點移動一次。

    圖6 初始地圖下的導(dǎo)航

    3.2.2 增量環(huán)境下的導(dǎo)航

    圖7(a)和圖7(b)展示了增量環(huán)境下,即地圖中障礙物增加的情況下,移動機器人也能夠順利完成導(dǎo)航任務(wù),并且在此情況下,依舊采用的是之前訓(xùn)練好的模型,相同的網(wǎng)絡(luò)結(jié)構(gòu),相同的參數(shù)。

    圖7 增量環(huán)境下的導(dǎo)航

    4 結(jié)束語

    本文針對復(fù)雜動態(tài)變化的室內(nèi)環(huán)境下采用了區(qū)別于以往A*算法等的只能解決固定兩點位置間的路徑規(guī)劃的算法,使用當(dāng)下人工智能最新的研究領(lǐng)域深度強化學(xué)習(xí),將其運用在機器人導(dǎo)航策略的研究上,有效的解決了在室內(nèi)環(huán)境中,場景的發(fā)生改變的情況下也能完成移動機器人從任意一個位置到任意另一個位置的導(dǎo)航。不過該研究方法也有一些難點:

    1)樣本利用率低,需要大量實驗迭代次數(shù)才能達到較好的結(jié)果,因此導(dǎo)致訓(xùn)練所需時間較長;

    2)獎勵函數(shù)較難設(shè)置,需要根據(jù)使用的實際平臺訓(xùn)練時的實驗結(jié)果進行細微調(diào)整;

    3)過擬合嚴(yán)重,場景發(fā)生較大改變時實驗結(jié)果不太理想,需要重新訓(xùn)練;

    4)導(dǎo)航成功率需待提高,當(dāng)環(huán)境信息較為復(fù)雜是,移動機器人的導(dǎo)航難以保持比較高的準(zhǔn)確性。

    雖然深度強化學(xué)習(xí)應(yīng)用于機器人導(dǎo)航策略研究有以上難點,但是隨著硬件性能的逐步提升大量的實驗訓(xùn)練次數(shù)的需求將不是問題,樣本利用率低的問題也能得到有效的解決,此外越來越多的學(xué)者對于獎勵函數(shù)的設(shè)置和更優(yōu)的訓(xùn)練模型展開了研究,因此利用深度強化學(xué)習(xí)進行機器人導(dǎo)航策略的研究一定會是今后一個研究的熱點,能成為滿足人們對移動機器人智能化的要求的有利手段。

    猜你喜歡
    移動機器人卷積機器人
    移動機器人自主動態(tài)避障方法
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    基于Twincat的移動機器人制孔系統(tǒng)
    機器人來幫你
    認識機器人
    機器人來啦
    認識機器人
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
    激情 狠狠 欧美| 精品久久久久久成人av| 午夜久久久久精精品| 黄色欧美视频在线观看| 免费人成在线观看视频色| 亚洲国产精品成人综合色| 成年女人看的毛片在线观看| 欧美日本亚洲视频在线播放| 国产精品一区二区三区四区久久| 亚洲最大成人av| 成人午夜高清在线视频| 国产黄色视频一区二区在线观看 | 一级二级三级毛片免费看| 亚洲最大成人av| 天天躁日日操中文字幕| 可以在线观看的亚洲视频| 国产久久久一区二区三区| 亚洲国产日韩欧美精品在线观看| 日日摸夜夜添夜夜添av毛片| 成人高潮视频无遮挡免费网站| 色综合色国产| 亚洲精品自拍成人| 美女黄网站色视频| 超碰av人人做人人爽久久| 午夜福利视频1000在线观看| 干丝袜人妻中文字幕| 国产亚洲av片在线观看秒播厂 | 麻豆国产97在线/欧美| 我要看日韩黄色一级片| 禁无遮挡网站| 精品日产1卡2卡| 天堂影院成人在线观看| 国产激情偷乱视频一区二区| 亚洲成人av在线免费| 女同久久另类99精品国产91| 亚洲精品亚洲一区二区| 看非洲黑人一级黄片| 国产精品av视频在线免费观看| 高清日韩中文字幕在线| 国产黄a三级三级三级人| a级毛片免费高清观看在线播放| 91在线精品国自产拍蜜月| 美女cb高潮喷水在线观看| 久久精品国产鲁丝片午夜精品| h日本视频在线播放| 在线观看一区二区三区| 国产精品久久久久久av不卡| 午夜久久久久精精品| 人体艺术视频欧美日本| 日韩高清综合在线| 99热精品在线国产| 日本五十路高清| АⅤ资源中文在线天堂| 久久午夜亚洲精品久久| 亚洲不卡免费看| 国产免费男女视频| 免费av毛片视频| 亚洲av熟女| 日本撒尿小便嘘嘘汇集6| 精品久久久久久久久久久久久| 国产精品一二三区在线看| 亚洲综合色惰| 日本与韩国留学比较| 五月伊人婷婷丁香| 99久久中文字幕三级久久日本| 久久精品综合一区二区三区| 国产视频内射| 能在线免费观看的黄片| 国产伦理片在线播放av一区 | 少妇的逼好多水| 亚洲最大成人手机在线| 啦啦啦观看免费观看视频高清| av.在线天堂| 五月玫瑰六月丁香| 亚洲欧美中文字幕日韩二区| 亚洲三级黄色毛片| av在线观看视频网站免费| 日韩强制内射视频| 最近的中文字幕免费完整| 国产在线男女| 亚洲精品日韩在线中文字幕 | kizo精华| 亚洲精品日韩av片在线观看| 毛片一级片免费看久久久久| 国产在线精品亚洲第一网站| 插逼视频在线观看| 床上黄色一级片| 麻豆成人午夜福利视频| 国产成人一区二区在线| 国产不卡一卡二| 性插视频无遮挡在线免费观看| 国产久久久一区二区三区| 在线观看66精品国产| 亚洲av男天堂| 最近的中文字幕免费完整| 中国美白少妇内射xxxbb| 日日啪夜夜撸| 91久久精品国产一区二区成人| 精品日产1卡2卡| 人人妻人人澡人人爽人人夜夜 | 日本黄色视频三级网站网址| 哪里可以看免费的av片| 成年免费大片在线观看| 久久鲁丝午夜福利片| 亚洲精品日韩av片在线观看| 夜夜爽天天搞| 亚洲在线自拍视频| 午夜福利在线在线| а√天堂www在线а√下载| 中文字幕免费在线视频6| 国产探花极品一区二区| 成人国产麻豆网| 亚洲高清免费不卡视频| 精品国内亚洲2022精品成人| 国产精品无大码| 国产一区亚洲一区在线观看| 国产亚洲av嫩草精品影院| 最近最新中文字幕大全电影3| 高清午夜精品一区二区三区 | 色5月婷婷丁香| 免费观看a级毛片全部| 少妇猛男粗大的猛烈进出视频 | 哪里可以看免费的av片| 日本撒尿小便嘘嘘汇集6| 亚洲最大成人中文| 97超视频在线观看视频| 亚洲成a人片在线一区二区| 日韩,欧美,国产一区二区三区 | 最后的刺客免费高清国语| 久久久精品大字幕| 国产精品无大码| 亚洲五月天丁香| 国产 一区 欧美 日韩| 寂寞人妻少妇视频99o| 久久久久久国产a免费观看| 99热这里只有是精品在线观看| 特级一级黄色大片| 国产精品国产三级国产av玫瑰| 精品一区二区三区视频在线| 亚洲欧美日韩东京热| 久久精品夜夜夜夜夜久久蜜豆| videossex国产| 啦啦啦韩国在线观看视频| 久久久午夜欧美精品| 日日干狠狠操夜夜爽| 国产综合懂色| 精品人妻偷拍中文字幕| 欧美日韩乱码在线| 精品久久久噜噜| 亚洲精品亚洲一区二区| 午夜老司机福利剧场| 国产成人精品一,二区 | 天堂网av新在线| 亚洲精品日韩在线中文字幕 | 三级国产精品欧美在线观看| 青青草视频在线视频观看| 如何舔出高潮| 边亲边吃奶的免费视频| 日日干狠狠操夜夜爽| 老女人水多毛片| 悠悠久久av| 舔av片在线| 午夜福利成人在线免费观看| 在线a可以看的网站| 国产高清视频在线观看网站| 精品99又大又爽又粗少妇毛片| 三级男女做爰猛烈吃奶摸视频| 精品午夜福利在线看| 桃色一区二区三区在线观看| 日本成人三级电影网站| 亚洲熟妇中文字幕五十中出| 免费看av在线观看网站| 欧美三级亚洲精品| 搡老妇女老女人老熟妇| 天堂网av新在线| 亚洲成人精品中文字幕电影| 婷婷六月久久综合丁香| 一级毛片我不卡| 看片在线看免费视频| 2022亚洲国产成人精品| 春色校园在线视频观看| av专区在线播放| 美女大奶头视频| 国模一区二区三区四区视频| av在线亚洲专区| 国产精品久久久久久精品电影| 成人av在线播放网站| 午夜精品一区二区三区免费看| 人人妻人人澡人人爽人人夜夜 | 成人特级av手机在线观看| 亚洲va在线va天堂va国产| 亚洲不卡免费看| 在线观看免费视频日本深夜| 欧美bdsm另类| 欧美激情在线99| 欧美成人精品欧美一级黄| 亚洲,欧美,日韩| 久久人人精品亚洲av| 亚洲最大成人av| 夜夜夜夜夜久久久久| 国产高清不卡午夜福利| 最近中文字幕高清免费大全6| 亚洲人成网站高清观看| 成人三级黄色视频| 久久午夜亚洲精品久久| 国产探花极品一区二区| 国产一区二区亚洲精品在线观看| 中文字幕人妻熟人妻熟丝袜美| 91午夜精品亚洲一区二区三区| 欧美在线一区亚洲| 亚洲成av人片在线播放无| 国产高清激情床上av| 久99久视频精品免费| 三级经典国产精品| 在线观看美女被高潮喷水网站| 久久人妻av系列| 日本-黄色视频高清免费观看| 我要看日韩黄色一级片| 一本精品99久久精品77| 久久人人精品亚洲av| 久久国内精品自在自线图片| 免费av观看视频| 亚洲综合色惰| 欧美另类亚洲清纯唯美| 男女啪啪激烈高潮av片| 春色校园在线视频观看| 黄色日韩在线| 欧美性猛交╳xxx乱大交人| 精品99又大又爽又粗少妇毛片| 22中文网久久字幕| 午夜免费激情av| 国产精品人妻久久久久久| 日日撸夜夜添| 免费黄网站久久成人精品| 日韩av不卡免费在线播放| av在线播放精品| 亚洲国产精品国产精品| 国产三级在线视频| 成人av在线播放网站| h日本视频在线播放| 国产视频首页在线观看| 国产精品电影一区二区三区| 免费不卡的大黄色大毛片视频在线观看 | 秋霞在线观看毛片| 日本-黄色视频高清免费观看| 亚洲av第一区精品v没综合| 99精品在免费线老司机午夜| 久久久久久久久大av| 狂野欧美白嫩少妇大欣赏| 欧美最新免费一区二区三区| 亚洲av熟女| 18+在线观看网站| 亚州av有码| 久久人人爽人人片av| 日本黄色视频三级网站网址| 欧美成人一区二区免费高清观看| 久久鲁丝午夜福利片| 成人特级av手机在线观看| 老女人水多毛片| 婷婷色综合大香蕉| 国产精品一区www在线观看| 网址你懂的国产日韩在线| 中文字幕熟女人妻在线| 午夜精品一区二区三区免费看| 久久精品夜夜夜夜夜久久蜜豆| 国产日本99.免费观看| 夜夜看夜夜爽夜夜摸| 久久6这里有精品| 一级毛片aaaaaa免费看小| 精品人妻偷拍中文字幕| 国产淫片久久久久久久久| 国产精品1区2区在线观看.| 一级毛片久久久久久久久女| 97超碰精品成人国产| 国产一区亚洲一区在线观看| 国产大屁股一区二区在线视频| 日韩人妻高清精品专区| 天天躁日日操中文字幕| 白带黄色成豆腐渣| 成人漫画全彩无遮挡| 真实男女啪啪啪动态图| 欧美日韩在线观看h| 99在线视频只有这里精品首页| 波野结衣二区三区在线| 国产高清有码在线观看视频| 欧美潮喷喷水| 床上黄色一级片| 最近最新中文字幕大全电影3| 欧美bdsm另类| 成人亚洲精品av一区二区| 欧美三级亚洲精品| 春色校园在线视频观看| .国产精品久久| 在线观看美女被高潮喷水网站| 天堂av国产一区二区熟女人妻| 男女做爰动态图高潮gif福利片| 性欧美人与动物交配| 中文字幕av成人在线电影| 亚洲av免费高清在线观看| 欧美最新免费一区二区三区| 亚洲五月天丁香| 少妇熟女aⅴ在线视频| a级毛片免费高清观看在线播放| 国产成人精品一,二区 | 伦精品一区二区三区| 变态另类丝袜制服| 一级毛片aaaaaa免费看小| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 亚洲激情五月婷婷啪啪| 毛片一级片免费看久久久久| 黄色欧美视频在线观看| 久久人人精品亚洲av| 亚洲aⅴ乱码一区二区在线播放| 中文字幕精品亚洲无线码一区| 欧美最新免费一区二区三区| 国产精品精品国产色婷婷| 午夜久久久久精精品| 国产午夜精品久久久久久一区二区三区| 国产亚洲精品久久久com| 精品久久久久久久人妻蜜臀av| 91久久精品电影网| 女人十人毛片免费观看3o分钟| 成人欧美大片| 草草在线视频免费看| 99久国产av精品国产电影| 99久久人妻综合| av在线观看视频网站免费| 男插女下体视频免费在线播放| 色吧在线观看| 国产精品一二三区在线看| 日本-黄色视频高清免费观看| 一区二区三区四区激情视频 | 亚洲熟妇中文字幕五十中出| 女的被弄到高潮叫床怎么办| 国产午夜福利久久久久久| av在线天堂中文字幕| 久久草成人影院| 国产精品一区二区三区四区免费观看| 婷婷六月久久综合丁香| 99在线视频只有这里精品首页| 天堂影院成人在线观看| 亚洲精品亚洲一区二区| 黄色视频,在线免费观看| 亚洲美女搞黄在线观看| 国产高潮美女av| 免费观看人在逋| 黄色欧美视频在线观看| 少妇被粗大猛烈的视频| 精品欧美国产一区二区三| 久久久久久久久久成人| 欧美精品国产亚洲| 欧美成人免费av一区二区三区| 亚洲国产高清在线一区二区三| 久久综合国产亚洲精品| av在线老鸭窝| 亚洲自拍偷在线| 中国国产av一级| 高清在线视频一区二区三区 | 国产精品.久久久| 久久精品影院6| 国产91av在线免费观看| 蜜臀久久99精品久久宅男| 97热精品久久久久久| 欧美激情久久久久久爽电影| 国产成人a∨麻豆精品| 亚洲最大成人中文| 天天躁日日操中文字幕| 中文亚洲av片在线观看爽| 欧美成人a在线观看| 一个人看视频在线观看www免费| 国产黄a三级三级三级人| 中文字幕人妻熟人妻熟丝袜美| 国产精品无大码| 精华霜和精华液先用哪个| 亚洲精品影视一区二区三区av| 观看免费一级毛片| 99国产极品粉嫩在线观看| 菩萨蛮人人尽说江南好唐韦庄 | 搞女人的毛片| 三级国产精品欧美在线观看| 亚洲欧美日韩卡通动漫| 久久这里有精品视频免费| 美女国产视频在线观看| 国产精品久久久久久精品电影小说 | 欧美性感艳星| 亚洲欧美日韩高清在线视频| 91av网一区二区| 一本一本综合久久| 日韩国内少妇激情av| 爱豆传媒免费全集在线观看| 蜜桃亚洲精品一区二区三区| 国产熟女欧美一区二区| 日韩成人av中文字幕在线观看| 欧美一级a爱片免费观看看| 欧美日韩精品成人综合77777| 欧美xxxx性猛交bbbb| 亚洲人成网站在线播放欧美日韩| 激情 狠狠 欧美| 男女那种视频在线观看| 精品久久久久久久久亚洲| 一进一出抽搐动态| 日本黄大片高清| 岛国在线免费视频观看| av专区在线播放| 淫秽高清视频在线观看| 国产成人freesex在线| 午夜亚洲福利在线播放| 黄色日韩在线| 国产精品嫩草影院av在线观看| 久久久久久九九精品二区国产| 美女 人体艺术 gogo| 男女啪啪激烈高潮av片| 婷婷色av中文字幕| 九九久久精品国产亚洲av麻豆| 亚洲不卡免费看| 我的女老师完整版在线观看| 天堂影院成人在线观看| 精品国产三级普通话版| 欧美成人精品欧美一级黄| 日本与韩国留学比较| 岛国在线免费视频观看| 国产精品久久久久久精品电影小说 | 日韩中字成人| 一级黄片播放器| 男人舔奶头视频| 乱系列少妇在线播放| 身体一侧抽搐| 免费观看的影片在线观看| 日本熟妇午夜| 成人漫画全彩无遮挡| 小蜜桃在线观看免费完整版高清| 99久久精品热视频| 久久精品国产99精品国产亚洲性色| 边亲边吃奶的免费视频| 毛片女人毛片| 看免费成人av毛片| 亚洲国产欧洲综合997久久,| 亚洲天堂国产精品一区在线| 在线免费观看不下载黄p国产| 国产av不卡久久| 可以在线观看的亚洲视频| 日韩欧美 国产精品| 国产片特级美女逼逼视频| 亚洲色图av天堂| 麻豆国产97在线/欧美| 国产精品电影一区二区三区| 国产精品一区二区三区四区久久| 亚洲av成人精品一区久久| 免费av毛片视频| av黄色大香蕉| 国产不卡一卡二| 国产视频内射| 边亲边吃奶的免费视频| 美女cb高潮喷水在线观看| 国产高清不卡午夜福利| 日日摸夜夜添夜夜爱| 国产探花极品一区二区| 欧美性感艳星| 免费av观看视频| 久久久久久久午夜电影| 午夜精品一区二区三区免费看| 一夜夜www| 国产在线男女| 国产精品人妻久久久影院| 精品久久久久久成人av| 在线观看av片永久免费下载| 亚洲va在线va天堂va国产| 国产黄片美女视频| 欧美激情在线99| 天天一区二区日本电影三级| 超碰av人人做人人爽久久| 日韩成人伦理影院| 九九热线精品视视频播放| 日本黄色片子视频| 人人妻人人澡欧美一区二区| 久久精品夜色国产| 一进一出抽搐gif免费好疼| 美女cb高潮喷水在线观看| 精品不卡国产一区二区三区| 国产精品日韩av在线免费观看| 国产精品电影一区二区三区| 久久久久久久午夜电影| 久久久久免费精品人妻一区二区| 综合色丁香网| 啦啦啦韩国在线观看视频| 精品午夜福利在线看| 黄色欧美视频在线观看| 亚洲综合色惰| 亚洲第一电影网av| 男女下面进入的视频免费午夜| 国产69精品久久久久777片| 寂寞人妻少妇视频99o| 禁无遮挡网站| 亚洲电影在线观看av| 22中文网久久字幕| 中文字幕熟女人妻在线| 午夜精品一区二区三区免费看| 久久婷婷人人爽人人干人人爱| 亚洲国产精品成人久久小说 | 日韩中字成人| 中出人妻视频一区二区| 国内少妇人妻偷人精品xxx网站| 丝袜美腿在线中文| 久久久久国产网址| 女人十人毛片免费观看3o分钟| 免费看光身美女| 两个人视频免费观看高清| 欧美激情国产日韩精品一区| 国产午夜福利久久久久久| 成人漫画全彩无遮挡| 尾随美女入室| 国国产精品蜜臀av免费| 久久久久久久亚洲中文字幕| 中文精品一卡2卡3卡4更新| 十八禁国产超污无遮挡网站| 亚洲欧洲国产日韩| 中文字幕免费在线视频6| 午夜福利在线在线| 夜夜夜夜夜久久久久| av国产免费在线观看| 嘟嘟电影网在线观看| 国产真实伦视频高清在线观看| 免费观看的影片在线观看| 国产极品精品免费视频能看的| 好男人视频免费观看在线| 美女脱内裤让男人舔精品视频 | 精品日产1卡2卡| 久久这里只有精品中国| 别揉我奶头 嗯啊视频| 热99在线观看视频| 极品教师在线视频| 久久人人爽人人爽人人片va| a级一级毛片免费在线观看| 99久久无色码亚洲精品果冻| 男女啪啪激烈高潮av片| 久久精品国产鲁丝片午夜精品| 成人特级av手机在线观看| 婷婷精品国产亚洲av| 国产人妻一区二区三区在| 五月伊人婷婷丁香| 美女被艹到高潮喷水动态| 亚洲国产精品成人综合色| 悠悠久久av| 成年av动漫网址| 欧美一区二区国产精品久久精品| 天天一区二区日本电影三级| 国产精品久久久久久精品电影小说 | 九九久久精品国产亚洲av麻豆| 精品久久久久久久人妻蜜臀av| 舔av片在线| 亚洲最大成人中文| 精品久久久久久久末码| 色尼玛亚洲综合影院| 我的老师免费观看完整版| 非洲黑人性xxxx精品又粗又长| 97人妻精品一区二区三区麻豆| 午夜精品国产一区二区电影 | 亚洲性久久影院| av在线天堂中文字幕| 少妇高潮的动态图| 一个人观看的视频www高清免费观看| 伊人久久精品亚洲午夜| 久久久久久久午夜电影| 久久久欧美国产精品| 一级毛片久久久久久久久女| 少妇熟女aⅴ在线视频| 国产精品精品国产色婷婷| 熟妇人妻久久中文字幕3abv| 精品免费久久久久久久清纯| 国语自产精品视频在线第100页| 男人的好看免费观看在线视频| 12—13女人毛片做爰片一| 美女 人体艺术 gogo| 亚洲国产精品sss在线观看| 欧美高清性xxxxhd video| 国产成年人精品一区二区| 国产av麻豆久久久久久久| 日本免费a在线| 夜夜看夜夜爽夜夜摸| 国产精品久久久久久久久免| 男女边吃奶边做爰视频| 亚洲经典国产精华液单| 久久人人爽人人片av| 日韩三级伦理在线观看| 黄色一级大片看看| 秋霞在线观看毛片| 菩萨蛮人人尽说江南好唐韦庄 | 三级男女做爰猛烈吃奶摸视频| 免费在线观看成人毛片| 美女黄网站色视频| 国内精品一区二区在线观看| 午夜激情福利司机影院| www.色视频.com| 尾随美女入室| av女优亚洲男人天堂| 日韩欧美一区二区三区在线观看| 国产成人午夜福利电影在线观看| 春色校园在线视频观看| 色噜噜av男人的天堂激情| 亚洲成av人片在线播放无| 一本一本综合久久| 久久婷婷人人爽人人干人人爱| 麻豆成人av视频| 可以在线观看的亚洲视频| 99久久中文字幕三级久久日本| 少妇熟女aⅴ在线视频| 一级黄片播放器| 欧美精品国产亚洲| 欧美最新免费一区二区三区| 久久久国产成人精品二区| 男女边吃奶边做爰视频| 全区人妻精品视频| 99热这里只有精品一区| 久久综合国产亚洲精品| 精品人妻偷拍中文字幕|