• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    改進(jìn)TD3算法在四旋翼無(wú)人機(jī)避障中的應(yīng)用

    2021-06-11 10:17:18劉廣鐘
    關(guān)鍵詞:步數(shù)旋翼經(jīng)驗(yàn)

    唐 蕾,劉廣鐘

    上海海事大學(xué) 信息工程學(xué)院,上海201306

    四旋翼無(wú)人機(jī)因其小巧輕便、可以完成人類不便完成的任務(wù)而廣受青睞,在工業(yè)巡檢、搶險(xiǎn)救災(zāi)、生活輔助等諸多領(lǐng)域大放異彩。但在此發(fā)展過(guò)程中,四旋翼無(wú)人機(jī)傷人損物事件逐年增加,甚至影響到空域安全[1]。為此,保證四旋翼無(wú)人機(jī)具備自主避障能力是一項(xiàng)最基本且重要的功能要求,是實(shí)現(xiàn)各項(xiàng)復(fù)雜作業(yè)任務(wù)的前提。

    近年來(lái),強(qiáng)化學(xué)習(xí)飛速發(fā)展,在人工智能領(lǐng)域表現(xiàn)突出[2-4]。許多研究人員利用強(qiáng)化學(xué)習(xí)框架研究智能體的避障、路徑規(guī)劃問(wèn)題,與人工勢(shì)場(chǎng)法[5]、可視圖法[6]、粒子群優(yōu)化算法[7]等傳統(tǒng)的避障方法相比,強(qiáng)化學(xué)習(xí)方法在復(fù)雜、難度大的環(huán)境中更具有優(yōu)勢(shì)。相對(duì)智能小車、移動(dòng)機(jī)器人而言,四旋翼無(wú)人機(jī)因運(yùn)動(dòng)方向更多,其避障情況更加復(fù)雜。國(guó)內(nèi)外學(xué)者對(duì)其進(jìn)行了相關(guān)研究。Kim等[8]將Q-learning算法[9]用于室內(nèi)仿真環(huán)境中的四旋翼無(wú)人機(jī)規(guī)避障礙物及路徑規(guī)劃問(wèn)題,實(shí)驗(yàn)表明訓(xùn)練后的Q-learning算法在時(shí)間上優(yōu)于A?算法[10]。Tran等[11]以攜帶單目前置攝像頭的四旋翼無(wú)人機(jī)為對(duì)象,提出一種基于數(shù)據(jù)集融合的深度強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了在密集混亂環(huán)境中的自主避障。Kahn等[12]提出一種基于不確定感知的深度強(qiáng)化學(xué)習(xí)方法,通過(guò)對(duì)碰撞概率的估計(jì),使得四旋翼無(wú)人機(jī)在面對(duì)不熟悉的未知環(huán)境中保持“警惕”,降低運(yùn)行速度,減小碰撞的可能。中科院自動(dòng)化所的曾毅等[13]提出一種基于前額葉皮層-基底核的強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了無(wú)人機(jī)的避障控制。香港科技大學(xué)的Li等[14]將DDPG算法[15]用于規(guī)劃四旋翼無(wú)人機(jī)的期望路徑,并與PID控制器結(jié)合,利用分層結(jié)構(gòu)實(shí)現(xiàn)無(wú)碰撞目標(biāo)跟蹤任務(wù)。DDPG算法作為連續(xù)動(dòng)作控制方面的經(jīng)典算法,被廣泛應(yīng)用于避障、路徑規(guī)劃等問(wèn)題。但它存在Q值高估偏差,當(dāng)這種累計(jì)誤差達(dá)到一定程度時(shí),會(huì)導(dǎo)致次優(yōu)策略的更新和發(fā)散行為。而TD3算法是Fujimoto等[16]為了解決該問(wèn)題提出的優(yōu)化算法,研究指出其性能超過(guò)DDPG算法。經(jīng)典的TD3算法在訓(xùn)練時(shí)使用隨機(jī)采樣的方式,因此采樣的數(shù)據(jù)質(zhì)量參差不齊,影響訓(xùn)練效果。

    本文從改變訓(xùn)練數(shù)據(jù)質(zhì)量的角度出發(fā),提出基于雙延遲深度確定性策略梯度的改進(jìn)算法,然后將其應(yīng)用到四旋翼無(wú)人機(jī)的避障問(wèn)題中,最后利用AirSim仿真平臺(tái)比較I-TD3算法與經(jīng)典TD3算法、DDPG算法的避障性能。實(shí)驗(yàn)結(jié)果表明,提出的I-TD3算法的避障性能優(yōu)于經(jīng)典TD3算法和DDPG算法。

    1 相關(guān)工作

    1.1 強(qiáng)化學(xué)習(xí)模型

    強(qiáng)化學(xué)習(xí)的模型如圖1所示,學(xué)習(xí)思路與人類似,是通過(guò)與周圍環(huán)境的不斷交互來(lái)進(jìn)行學(xué)習(xí)。其學(xué)習(xí)過(guò)程可以用馬爾科夫決策過(guò)程(Markov Decision Process,MDP)表示。

    圖1 強(qiáng)化學(xué)習(xí)模型

    馬爾科夫決策過(guò)程是一個(gè)五元組,表示為{S,A,P,R,γ},其中S是環(huán)境狀態(tài)的集合;A是Agent采取的動(dòng)作集合;P是狀態(tài)轉(zhuǎn)移模型,表示Agent在狀態(tài)s下采取動(dòng)作a后到達(dá)狀態(tài)s′的概率;R是獎(jiǎng)勵(lì)函數(shù),rt=R[ ]St=s,At=a表示在狀態(tài)s下采取動(dòng)作a時(shí)得到的獎(jiǎng)勵(lì);γ∈[0,1]是獎(jiǎng)勵(lì)衰減因子,用來(lái)權(quán)衡當(dāng)前獎(jiǎng)勵(lì)與后續(xù)獎(jiǎng)勵(lì)的權(quán)重關(guān)系,其取值越大則越注重長(zhǎng)遠(yuǎn)利益。除此之外,策略π表示Agent采取動(dòng)作的依據(jù),即Agent會(huì)依據(jù)它來(lái)選擇動(dòng)作。在強(qiáng)化學(xué)習(xí)中,Agent在t時(shí)刻St狀態(tài)下,根據(jù)策略π執(zhí)行動(dòng)作At,然后環(huán)境通過(guò)狀態(tài)轉(zhuǎn)移模型P和獎(jiǎng)勵(lì)函數(shù)R得到新?tīng)顟B(tài)St+1和獎(jiǎng)勵(lì)rt。通過(guò)重復(fù)這一過(guò)程,更新策略π,從而得到比其他策略都要多的回報(bào),該策略稱之為最優(yōu)策略π*,即:

    尋找最優(yōu)策略,可以通過(guò)尋找最優(yōu)價(jià)值函數(shù)V*來(lái)實(shí)現(xiàn),即:

    其中,Vπ表示在策略π下產(chǎn)生的價(jià)值函數(shù)。

    1.2 優(yōu)先經(jīng)驗(yàn)回放

    由于強(qiáng)化學(xué)習(xí)探索到的經(jīng)驗(yàn)數(shù)據(jù)具有很強(qiáng)的相關(guān)性,易使得訓(xùn)練不穩(wěn)定,陷入局部最優(yōu)解。所以2013年DeepMind在深度Q-learning(Deep Q-learning Network,DQN)算法[17]中提出了經(jīng)驗(yàn)回放方法。經(jīng)驗(yàn)回放方法實(shí)質(zhì)上是一個(gè)用于加深印象的經(jīng)驗(yàn)池,它存儲(chǔ)了一段時(shí)間內(nèi)的經(jīng)驗(yàn)數(shù)據(jù)。與人腦中的海馬體相似,添加新記憶的同時(shí),也會(huì)遺忘一些舊的記憶,但存儲(chǔ)在其中的記憶可以不受時(shí)間先后順序的影響隨時(shí)拿出來(lái)回憶。因此訓(xùn)練時(shí),從經(jīng)驗(yàn)池中隨機(jī)采樣,可以打破經(jīng)驗(yàn)數(shù)據(jù)間的關(guān)聯(lián)性,加快收斂速度,提高數(shù)據(jù)利用率。

    從人類過(guò)往的學(xué)習(xí)和生活經(jīng)驗(yàn)中得知,從不同的事件中得到的收獲是不一樣的。Schaul等[18]將該思想運(yùn)用到經(jīng)驗(yàn)回放,提出了優(yōu)先經(jīng)驗(yàn)回放方法。它通過(guò)賦予經(jīng)驗(yàn)池中經(jīng)驗(yàn)數(shù)據(jù)不同的優(yōu)先級(jí)權(quán)重,改變經(jīng)驗(yàn)數(shù)據(jù)被采樣的概率。在經(jīng)驗(yàn)池中優(yōu)先抽取價(jià)值比較高的經(jīng)驗(yàn)數(shù)據(jù),數(shù)據(jù)的優(yōu)先級(jí)p通過(guò)TD誤差δ來(lái)衡量:

    其中,y是目標(biāo)Q值,Q( )s,a是計(jì)算得出的當(dāng)前Q值。第j個(gè)樣本被采樣的概率P′()j為:

    其中,m是采樣樣本的數(shù)量。

    優(yōu)先經(jīng)驗(yàn)回放會(huì)將TD誤差和經(jīng)驗(yàn)數(shù)據(jù)一同存入經(jīng)驗(yàn)池,新的經(jīng)驗(yàn)在首次存入經(jīng)驗(yàn)池時(shí),會(huì)賦予最高的優(yōu)先級(jí),用于保證每個(gè)經(jīng)驗(yàn)數(shù)據(jù)都至少被抽取一次。

    2 基于I-TD3的四旋翼無(wú)人機(jī)自主避障方法

    2.1 四旋翼無(wú)人機(jī)的避障

    避障是指智能體在運(yùn)動(dòng)過(guò)程中,通過(guò)傳感器感知到其運(yùn)動(dòng)方向上存在障礙物時(shí),按照算法做出躲避動(dòng)作,實(shí)時(shí)更新路徑,最后繞過(guò)障礙物到達(dá)目標(biāo)點(diǎn)。與智能小車、移動(dòng)機(jī)器人相比,四旋翼無(wú)人機(jī)的避障情況更加復(fù)雜。因?yàn)閭鹘y(tǒng)避障問(wèn)題是基于2維平面,而四旋翼無(wú)人機(jī)是一種6自由度的垂直升降機(jī),其需要考慮3維空間的避障情況。

    隨著深度強(qiáng)化學(xué)習(xí)的發(fā)展,研究人員陸續(xù)提出了確定性策略梯度(Deterministic Policy Gradient,DPG)[19]、DDPG和TD3等算法,在智能控制領(lǐng)域取得了良好的效果。DDPG算法作為連續(xù)動(dòng)作控制方面的經(jīng)典算法,被廣泛應(yīng)用于避障、路徑規(guī)劃等問(wèn)題。而TD3算法是為了解決DDPG算法高估誤差問(wèn)題提出的優(yōu)化算法,研究指出其性能超過(guò)DDPG算法。

    因此,本文以TD3算法為基礎(chǔ),通過(guò)改進(jìn)該算法,提高四旋翼無(wú)人機(jī)的避障性能。

    2.2 TD3算法

    圖2是TD3算法的結(jié)構(gòu)框架。Actor網(wǎng)絡(luò)C?根據(jù)當(dāng)前狀態(tài)st輸出當(dāng)前動(dòng)作at,Actor目標(biāo)網(wǎng)絡(luò)C?′根據(jù)下一狀態(tài)st+1輸出目標(biāo)動(dòng)作a?t。Critic網(wǎng)絡(luò)Qθi在狀態(tài)st和動(dòng)作at情況下計(jì)算Q值Qθi( )st,at,Critic目標(biāo)網(wǎng)絡(luò)Qθ′i則計(jì)算在下一狀態(tài)st+1和目標(biāo)動(dòng)作a?t情況下的目標(biāo)Q值Qθ′i( )st+1,a?t。?和θi分別是Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù),?′和θ′i分別是Actor目標(biāo)網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)的參數(shù),i=1,2。當(dāng)Critic網(wǎng)絡(luò)更新參數(shù)時(shí),選取兩個(gè)Critic目標(biāo)網(wǎng)絡(luò)中更小的Q值作為目標(biāo)值yt,即:

    其中,ε′是添加的隨機(jī)噪聲,服從截?cái)嗾龖B(tài)分布clip(N(0,σ),-c,c),c>0。Actor網(wǎng)絡(luò)和四個(gè)目標(biāo)網(wǎng)絡(luò)的參數(shù)按照式(6)更新:

    其中,τ≤1。

    2.3 I-TD3算法思想

    TD3算法使用了傳統(tǒng)的經(jīng)驗(yàn)回放(Experience Replay)方法,它將探索得到的經(jīng)驗(yàn)數(shù)據(jù)存儲(chǔ)在經(jīng)驗(yàn)緩存池中,通過(guò)隨機(jī)抽取樣本的方式更新神經(jīng)網(wǎng)絡(luò)的參數(shù),打破了樣本之間的關(guān)聯(lián)關(guān)系,提高了神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性[16]。但是,通過(guò)隨機(jī)采樣的方式抽取的樣本數(shù)據(jù)質(zhì)量參差不齊,可能會(huì)出現(xiàn)大量無(wú)用樣本的情況,影響訓(xùn)練效果。因此將經(jīng)驗(yàn)池一分為二為Msuccess和Mfailure,分別存儲(chǔ)成功和失敗兩種飛行經(jīng)驗(yàn)。

    圖2 TD3算法結(jié)構(gòu)框架

    強(qiáng)化學(xué)習(xí)具有延時(shí)性,過(guò)往的經(jīng)驗(yàn)往往會(huì)影響此刻四旋翼無(wú)人機(jī)的狀態(tài)。假定t時(shí)刻四旋翼無(wú)人機(jī)仍未撞毀,此時(shí)四旋翼無(wú)人機(jī)探索得到的飛行經(jīng)驗(yàn)為et,則可以認(rèn)定t-α?xí)r刻的飛行經(jīng)驗(yàn)et-α對(duì)四旋翼無(wú)人機(jī)的影響是積極的,是一條成功的飛行經(jīng)驗(yàn)。因此除經(jīng)驗(yàn)池Msuccess和Mfailure外,另設(shè)置臨時(shí)經(jīng)驗(yàn)池Mtemp,用于存儲(chǔ)最近的α條飛行經(jīng)驗(yàn)。該經(jīng)驗(yàn)池的大小固定為α,一旦存滿,就使用先進(jìn)先出原則將其中最早的一條飛行經(jīng)驗(yàn)取出存入經(jīng)驗(yàn)池Msuccess,然后將新的飛行經(jīng)驗(yàn)繼續(xù)存入經(jīng)驗(yàn)池Mtemp。如此反復(fù),直至四旋翼無(wú)人機(jī)完成此次飛行任務(wù)。最后根據(jù)四旋翼無(wú)人機(jī)的最終狀態(tài),將經(jīng)驗(yàn)池Mtemp中的所有飛行經(jīng)驗(yàn)存入對(duì)應(yīng)的經(jīng)驗(yàn)池Msuccess或Mfailure。

    與智能小車的自主避障不同,四旋翼無(wú)人機(jī)在飛行過(guò)程中沒(méi)有固定道路,所以無(wú)法通過(guò)道路寬路與駕駛速度等因素的關(guān)系計(jì)算出經(jīng)驗(yàn)數(shù)量。因此根據(jù)實(shí)驗(yàn)過(guò)程中的碰撞經(jīng)驗(yàn),規(guī)定α∈[5,15]。實(shí)驗(yàn)中,α取值為10。

    圖3 基于I-TD3算法的四旋翼無(wú)人機(jī)自主避障學(xué)習(xí)過(guò)程示意圖

    st,at,rt,st+1存入臨時(shí)經(jīng)驗(yàn)池Mtemp,并根據(jù)上文提到的規(guī)則處理從臨時(shí)經(jīng)驗(yàn)池Mtemp中取出的經(jīng)驗(yàn)數(shù)據(jù)。最后從經(jīng)驗(yàn)池Msuccess和Mfailure中分別抽取若干條經(jīng)驗(yàn),訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

    在經(jīng)驗(yàn)池Msuccess中,希望抽取到價(jià)值更高的經(jīng)驗(yàn);而在經(jīng)驗(yàn)池Mfailure中,則無(wú)此考慮。由于對(duì)待二者的目的不同,所以分別使用優(yōu)先經(jīng)驗(yàn)回放方法和經(jīng)驗(yàn)回放方法從兩個(gè)經(jīng)驗(yàn)池中按比例采樣:

    其中,nsuccess、nfailure分別是從經(jīng)驗(yàn)池Msuccess和Mfailure中采樣的數(shù)量,m是總采樣數(shù),β∈[0,1]是失敗樣本率。當(dāng)β取值為0時(shí),表示全部從成功經(jīng)驗(yàn)池Msuccess中抽取經(jīng)驗(yàn);當(dāng)β取值為1時(shí),表示全部從失敗經(jīng)驗(yàn)池Mfailure中抽取經(jīng)驗(yàn)。實(shí)驗(yàn)中,β取值為0.05。

    2.4 獎(jiǎng)勵(lì)函數(shù)

    在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)函數(shù)指引了Agent的學(xué)習(xí)方向,發(fā)揮著至關(guān)重要的作用。本文根據(jù)實(shí)際的飛行情況,重新規(guī)劃獎(jiǎng)勵(lì)函數(shù)。

    四旋翼無(wú)人機(jī)的飛行空間可以用三維坐標(biāo)系表示,規(guī)定y軸為前進(jìn)方向,因此無(wú)人機(jī)在y軸的分速度vy是實(shí)際的前進(jìn)速度。當(dāng)無(wú)人機(jī)撞毀時(shí),獎(jiǎng)勵(lì)為?2;當(dāng)無(wú)人機(jī)到達(dá)目的地時(shí),獎(jiǎng)勵(lì)為+10;當(dāng)無(wú)人機(jī)在飛行途中時(shí),則根據(jù)它的飛行表現(xiàn)給予不同的獎(jiǎng)勵(lì)。從式(8)中可以看出向前飛行和向后飛行時(shí)給予的獎(jiǎng)勵(lì)差值較大,這就避免無(wú)人機(jī)通過(guò)延長(zhǎng)飛行步數(shù)來(lái)彌補(bǔ)飛行過(guò)程中出現(xiàn)的徘徊不前,甚至后退現(xiàn)象。

    2.5 算法設(shè)計(jì)

    I-TD3算法的偽代碼如下所示:

    1.3.2 移栽密度篩選試驗(yàn) 試驗(yàn)設(shè)4個(gè)處理:2萬(wàn)株 /hm2、4 萬(wàn)株 /hm2、6 萬(wàn)株 /hm2、8 萬(wàn)株 /hm2。每個(gè)處理重復(fù)3次,小區(qū)面積為30 m2。

    步驟1初始化Critic網(wǎng)絡(luò)Qθ1、Qθ2和Actor網(wǎng)絡(luò)C?的參數(shù)θ1、θ2、?。

    步驟2初始化目標(biāo)網(wǎng)絡(luò)θ′1←θ1,θ′2←θ2,?′←?。

    步驟3初始化成功經(jīng)驗(yàn)池Msuccess和失敗經(jīng)驗(yàn)池Mfailure,Msuccess的默認(rèn)結(jié)構(gòu)是SumTree,設(shè)置其所有葉子節(jié)點(diǎn)的優(yōu)先級(jí)pi為1。

    步驟4對(duì)每個(gè)episode,循環(huán)執(zhí)行以下步驟:

    (1)獲取初始狀態(tài)s0。

    (2)初始化臨時(shí)經(jīng)驗(yàn)池Mtemp。

    (3)若四旋翼無(wú)人機(jī)沒(méi)有結(jié)束飛行(當(dāng)四旋翼無(wú)人機(jī)撞毀或者到達(dá)目的地時(shí),結(jié)束飛行)并且飛行步數(shù)step小于最大限定步數(shù),則對(duì)它的每一步,循環(huán)執(zhí)行以下步驟:

    ①根據(jù)當(dāng)前狀態(tài)st,選擇動(dòng)作并加入噪聲:

    ②執(zhí)行動(dòng)作at,得到獎(jiǎng)勵(lì)rt和新?tīng)顟B(tài)st+1。

    ③若臨時(shí)經(jīng)驗(yàn)池Mtemp的大小等于β,則將Mtemp中最早的一條經(jīng)驗(yàn)取出存入經(jīng)驗(yàn)池Msuccess,否則不作處理。

    ④將四元組(st,at,rt,st+1)存入臨時(shí)經(jīng)驗(yàn)池Mtemp。

    ⑤從經(jīng)驗(yàn)池Msuccess和Mfailure中采樣m個(gè)樣本(sj,aj,rj,sj+1),j=1,2,…,m。其中從經(jīng)驗(yàn)池Mfailure中隨機(jī)抽取βm個(gè)樣本,從經(jīng)驗(yàn)池Msuccess中抽取(1-β)m個(gè)樣本,經(jīng)驗(yàn)池Msuccess中每個(gè)樣本被采樣的概率為:

    ⑥通過(guò)Critic目標(biāo)網(wǎng)絡(luò)計(jì)算動(dòng)作的期望回報(bào):

    ⑦更新Critic網(wǎng)絡(luò)參數(shù):

    ⑧重新計(jì)算從經(jīng)驗(yàn)池Msuccess中抽取的樣本的TD誤差δj,更新SumTree中對(duì)應(yīng)節(jié)點(diǎn)的優(yōu)先級(jí)。

    ⑨每隔d步,通過(guò)確定性策略梯度更新Actor網(wǎng)絡(luò)參數(shù)?:

    更新目標(biāo)網(wǎng)絡(luò)參數(shù):

    (4)結(jié)束step循環(huán)。

    (5)若四旋翼無(wú)人機(jī)到達(dá)目的地,則將臨時(shí)經(jīng)驗(yàn)池Mtemp中的所有經(jīng)驗(yàn)存入經(jīng)驗(yàn)池Msuccess,否則將之存入經(jīng)驗(yàn)池Mfailure。

    步驟5結(jié)束episode循環(huán)。

    3 實(shí)驗(yàn)

    實(shí)驗(yàn)環(huán)境為Windows10.1+tensorflow1.13.1+cuda10.0。硬件為英特爾至強(qiáng)E5-2673v3+GeForce RTX 2080TI+32 GB內(nèi)存。仿真平臺(tái)為AirSim仿真平臺(tái),地圖是自定義的狹窄多障礙通道。利用I-TD3算法、TD3算法、DDPG算法分別訓(xùn)練2 000回合,分析算法避障策略的有效性,以及避障成功率、避障效果與訓(xùn)練回合數(shù)的關(guān)系。

    3.1 AirSim仿真平臺(tái)

    AirSim是一款開(kāi)源模擬器,它能夠利用AI技術(shù)模擬無(wú)人機(jī)和無(wú)人車,幫助研究人員構(gòu)建安全的自動(dòng)駕駛系統(tǒng)。

    為了增加避障難度,地圖使用自定義的狹窄多障礙通道,如圖4所示。四旋翼無(wú)人機(jī)須從起點(diǎn)(紅色圓點(diǎn))處開(kāi)始無(wú)碰撞地依次穿過(guò)通道內(nèi)的所有障礙物,飛出通道,即為成功完成此次任務(wù)。

    圖4 自定義地圖

    3.2 實(shí)驗(yàn)結(jié)果

    圖5顯示了四旋翼無(wú)人機(jī)所有成功飛行記錄的飛行步數(shù)。由圖可知,I-TD3算法在260回合左右第一次出現(xiàn)成功記錄,TD3算法和DDPG算法分別在1 100回合和1 150回合左右第一次出現(xiàn)成功記錄,說(shuō)明TD3算法和DDPG算法相對(duì)I-TD3算法而言,需要更長(zhǎng)時(shí)間的探索嘗試。同時(shí),在I-TD3算法下飛行步數(shù)由最初的100步左右到穩(wěn)定在60步左右。在TD3算法下飛行步數(shù)由最初的150步左右到80步上下波動(dòng)。在DDPG算法下飛行步數(shù)由210步左右到80步左右,且前后波動(dòng)比較大。明顯看出,I-TD3算法相對(duì)于TD3算法和DDPG算法耗費(fèi)更少的步數(shù),其避障策略更有效。

    圖5 成功飛行記錄的飛行步數(shù)

    圖6 避障成功率

    圖6顯示了四旋翼無(wú)人機(jī)在各個(gè)算法下每50回合的避障成功率。由圖可知,隨著訓(xùn)練的進(jìn)行,I-TD3算法的成功率在1 300回合左右大幅穩(wěn)定提升,TD3算法的成功率在1 600回合左右大幅穩(wěn)定提升,DDPG算法的成功率在1 600回合左右大幅提升,但前后波動(dòng)大。在同等訓(xùn)練次數(shù)下,I-TD3算法比TD3算法、DDPG算法有著更高更穩(wěn)定的成功率。

    圖7 平均直線飛行距離

    圖7顯示了四旋翼無(wú)人機(jī)每10回合的平均直線飛行距離。由圖可知,在I-TD3算法下四旋翼無(wú)人機(jī)的平均直線飛行距離總體上大于在TD3算法和DDPG算法下的平均直線飛行距離。在1 400回合至2 000回合之間,I-TD3算法下四旋翼無(wú)人機(jī)始終保持較高的平均直線飛行距離,結(jié)合圖7分析可知,在此期間,I-TD3算法下四旋翼無(wú)人機(jī)避障失敗時(shí),大多在接近目標(biāo)點(diǎn)處撞毀,避障表現(xiàn)較好,避障效果相比TD3算法、DDPG算法均有很大提升。

    4 結(jié)語(yǔ)

    本文提出了一種基于雙延遲深度確定性策略梯度的改進(jìn)算法I-TD3。該算法通過(guò)分離成功和失敗兩種飛行經(jīng)驗(yàn)設(shè)置兩個(gè)經(jīng)驗(yàn)緩存池,根據(jù)兩個(gè)經(jīng)驗(yàn)緩存池的不同使用目的分別結(jié)合優(yōu)先經(jīng)驗(yàn)回放方法和經(jīng)驗(yàn)回放方法,提高了采樣效率和訓(xùn)練效率,并通過(guò)改進(jìn)獎(jiǎng)勵(lì)函數(shù),改善了訓(xùn)練效果。在AirSim平臺(tái)上的仿真結(jié)果表明,本文提出的改進(jìn)算法能提升四旋翼無(wú)人機(jī)的避障效果。但是該算法并未考慮存在動(dòng)態(tài)障礙物的情況,如何在動(dòng)態(tài)障礙物和靜態(tài)障礙物共同存在的情況下自主避障飛行,是下一步研究的方向。

    猜你喜歡
    步數(shù)旋翼經(jīng)驗(yàn)
    速度和步數(shù),哪個(gè)更重要
    2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2021年20期)2021-11-04 09:39:46
    改進(jìn)型自抗擾四旋翼無(wú)人機(jī)控制系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
    楚國(guó)的探索之旅
    奇妙博物館(2021年4期)2021-05-04 08:59:48
    大載重長(zhǎng)航時(shí)油動(dòng)多旋翼無(wú)人機(jī)
    基于STM32的四旋翼飛行器的設(shè)計(jì)
    電子制作(2019年9期)2019-05-30 09:41:48
    經(jīng)驗(yàn)
    微信運(yùn)動(dòng)步數(shù)識(shí)人指南
    小演奏家(2018年9期)2018-12-06 08:42:02
    2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2018年20期)2018-11-09 08:52:36
    四旋翼無(wú)人機(jī)動(dòng)態(tài)面控制
    久久久精品国产亚洲av高清涩受| 久久这里只有精品19| videos熟女内射| 老司机午夜福利在线观看视频 | 满18在线观看网站| 国产在线一区二区三区精| 亚洲精品国产一区二区精华液| 两个人免费观看高清视频| 色婷婷久久久亚洲欧美| 亚洲国产中文字幕在线视频| 亚洲黑人精品在线| 久久久水蜜桃国产精品网| 一区二区三区乱码不卡18| 国产男人的电影天堂91| 天天操日日干夜夜撸| 午夜免费成人在线视频| 美女视频免费永久观看网站| 久久久久网色| 欧美人与性动交α欧美软件| 久热爱精品视频在线9| 日日爽夜夜爽网站| 亚洲熟女精品中文字幕| 亚洲av美国av| 侵犯人妻中文字幕一二三四区| 脱女人内裤的视频| 国产精品久久久久久人妻精品电影 | 日本av免费视频播放| a在线观看视频网站| 日韩 欧美 亚洲 中文字幕| 91麻豆av在线| 少妇精品久久久久久久| netflix在线观看网站| 女人精品久久久久毛片| 色精品久久人妻99蜜桃| 女人久久www免费人成看片| 国产欧美日韩综合在线一区二区| 下体分泌物呈黄色| 操出白浆在线播放| 在线观看免费午夜福利视频| 人妻人人澡人人爽人人| 正在播放国产对白刺激| 国产一区二区在线观看av| www.av在线官网国产| 97在线人人人人妻| av免费在线观看网站| 免费久久久久久久精品成人欧美视频| 18在线观看网站| 亚洲久久久国产精品| av在线老鸭窝| 亚洲专区国产一区二区| 老司机午夜福利在线观看视频 | 色视频在线一区二区三区| 在线观看人妻少妇| 久久久久久久精品精品| 亚洲av欧美aⅴ国产| 91精品三级在线观看| 悠悠久久av| 丰满少妇做爰视频| svipshipincom国产片| 国产欧美日韩综合在线一区二区| 一级片免费观看大全| 他把我摸到了高潮在线观看 | 成人18禁高潮啪啪吃奶动态图| 欧美精品一区二区大全| 亚洲国产看品久久| 久久久久久免费高清国产稀缺| 日本猛色少妇xxxxx猛交久久| 欧美成狂野欧美在线观看| 啦啦啦免费观看视频1| 黄色 视频免费看| 丝袜美足系列| 香蕉国产在线看| avwww免费| 自线自在国产av| 成人av一区二区三区在线看 | 久久久欧美国产精品| av视频免费观看在线观看| 国产精品久久久久久精品电影小说| 久久ye,这里只有精品| 日韩有码中文字幕| av超薄肉色丝袜交足视频| 国产成人精品在线电影| 午夜福利,免费看| 国产真人三级小视频在线观看| 天天躁夜夜躁狠狠躁躁| 亚洲专区国产一区二区| 啦啦啦在线免费观看视频4| 亚洲欧洲精品一区二区精品久久久| 精品欧美一区二区三区在线| 国产成人影院久久av| 久久久欧美国产精品| 三上悠亚av全集在线观看| 又黄又粗又硬又大视频| 亚洲 欧美一区二区三区| 久久性视频一级片| 交换朋友夫妻互换小说| kizo精华| 少妇精品久久久久久久| 欧美日韩亚洲高清精品| 女人被躁到高潮嗷嗷叫费观| 国产精品久久久久成人av| 免费一级毛片在线播放高清视频 | 亚洲伊人久久精品综合| 国产在线免费精品| 国产在线视频一区二区| 亚洲一区中文字幕在线| 亚洲 欧美一区二区三区| 亚洲色图综合在线观看| 亚洲欧美成人综合另类久久久| 精品福利永久在线观看| 视频区欧美日本亚洲| 亚洲 国产 在线| 汤姆久久久久久久影院中文字幕| 捣出白浆h1v1| 韩国高清视频一区二区三区| 女性被躁到高潮视频| 搡老乐熟女国产| 欧美一级毛片孕妇| 首页视频小说图片口味搜索| 国产黄频视频在线观看| 国产有黄有色有爽视频| 国产亚洲精品第一综合不卡| 国产深夜福利视频在线观看| 性色av一级| 丝袜脚勾引网站| 欧美性长视频在线观看| 我要看黄色一级片免费的| 午夜福利视频精品| 精品国产乱子伦一区二区三区 | 亚洲欧美日韩另类电影网站| 国产精品久久久久久精品电影小说| 亚洲欧美清纯卡通| 免费一级毛片在线播放高清视频 | 91麻豆精品激情在线观看国产 | 好男人电影高清在线观看| 老熟女久久久| 午夜激情av网站| 9191精品国产免费久久| 伦理电影免费视频| 国产97色在线日韩免费| 日韩欧美免费精品| 亚洲第一青青草原| 亚洲 国产 在线| 丰满迷人的少妇在线观看| 亚洲精品国产一区二区精华液| 18禁黄网站禁片午夜丰满| 久久久久国内视频| 永久免费av网站大全| av片东京热男人的天堂| 黄色a级毛片大全视频| 精品少妇一区二区三区视频日本电影| 女性被躁到高潮视频| 亚洲成人免费电影在线观看| 久久精品亚洲熟妇少妇任你| 人妻一区二区av| 亚洲av片天天在线观看| 黑人欧美特级aaaaaa片| 精品国产乱码久久久久久小说| 免费高清在线观看视频在线观看| 大型av网站在线播放| 宅男免费午夜| 国产一级毛片在线| 亚洲欧美激情在线| 亚洲精品国产一区二区精华液| 国产熟女午夜一区二区三区| 狠狠婷婷综合久久久久久88av| 蜜桃在线观看..| 免费在线观看影片大全网站| av电影中文网址| 国产亚洲午夜精品一区二区久久| 麻豆国产av国片精品| 日韩视频一区二区在线观看| 成人亚洲精品一区在线观看| 午夜福利一区二区在线看| avwww免费| 十八禁高潮呻吟视频| 久久久精品区二区三区| 精品国产国语对白av| 丰满人妻熟妇乱又伦精品不卡| 日韩大码丰满熟妇| 中亚洲国语对白在线视频| 又大又爽又粗| 99精国产麻豆久久婷婷| 久久人妻熟女aⅴ| 欧美精品一区二区大全| 日韩大码丰满熟妇| 欧美成狂野欧美在线观看| 操出白浆在线播放| 久久久久视频综合| 各种免费的搞黄视频| 国产麻豆69| 久久久久国产一级毛片高清牌| 国产精品 欧美亚洲| 国产精品欧美亚洲77777| 久久午夜综合久久蜜桃| 黑人欧美特级aaaaaa片| 亚洲国产欧美在线一区| 夜夜夜夜夜久久久久| 免费在线观看黄色视频的| 久9热在线精品视频| 亚洲精品日韩在线中文字幕| 国产成人精品无人区| 久久女婷五月综合色啪小说| 岛国毛片在线播放| 成年人免费黄色播放视频| 欧美午夜高清在线| 亚洲国产毛片av蜜桃av| 免费黄频网站在线观看国产| 亚洲精品国产av成人精品| 久久 成人 亚洲| 黄色毛片三级朝国网站| 人妻人人澡人人爽人人| 欧美日韩av久久| 久久久久网色| 亚洲国产欧美网| 无限看片的www在线观看| 热99re8久久精品国产| 另类亚洲欧美激情| 精品少妇黑人巨大在线播放| 中文字幕人妻丝袜一区二区| 美女脱内裤让男人舔精品视频| 久久人妻福利社区极品人妻图片| 高清黄色对白视频在线免费看| 免费看十八禁软件| 如日韩欧美国产精品一区二区三区| 免费看十八禁软件| 久久久精品国产亚洲av高清涩受| 热99re8久久精品国产| 国产男人的电影天堂91| 男女国产视频网站| 丁香六月欧美| 老司机影院成人| 国产1区2区3区精品| 咕卡用的链子| 性色av一级| 美女午夜性视频免费| 亚洲男人天堂网一区| 久久久国产精品麻豆| 欧美激情高清一区二区三区| 性色av乱码一区二区三区2| 精品免费久久久久久久清纯 | www.熟女人妻精品国产| 欧美少妇被猛烈插入视频| 91精品伊人久久大香线蕉| 丁香六月欧美| 欧美精品啪啪一区二区三区 | 久久精品aⅴ一区二区三区四区| 久久国产精品男人的天堂亚洲| 国产主播在线观看一区二区| 捣出白浆h1v1| 日本a在线网址| 大香蕉久久网| 黄色视频不卡| 免费观看av网站的网址| 亚洲欧美精品自产自拍| 欧美人与性动交α欧美精品济南到| 女人精品久久久久毛片| 欧美大码av| 美国免费a级毛片| 秋霞在线观看毛片| 自线自在国产av| 国产精品国产av在线观看| 捣出白浆h1v1| 91成年电影在线观看| 狠狠狠狠99中文字幕| 最近最新免费中文字幕在线| 嫁个100分男人电影在线观看| 欧美精品一区二区免费开放| 大香蕉久久成人网| 国产一区二区在线观看av| 一级片'在线观看视频| 国产亚洲午夜精品一区二区久久| 亚洲欧洲日产国产| svipshipincom国产片| 精品国产乱子伦一区二区三区 | 亚洲国产毛片av蜜桃av| 午夜福利一区二区在线看| 亚洲中文av在线| 久久精品成人免费网站| 亚洲成国产人片在线观看| 日本av手机在线免费观看| 亚洲一区中文字幕在线| 午夜免费成人在线视频| 欧美中文综合在线视频| av在线播放精品| 老司机影院成人| 欧美+亚洲+日韩+国产| 宅男免费午夜| 黑丝袜美女国产一区| 午夜福利在线观看吧| 可以免费在线观看a视频的电影网站| 一级毛片女人18水好多| 女性被躁到高潮视频| av天堂在线播放| 一本一本久久a久久精品综合妖精| 51午夜福利影视在线观看| 亚洲人成电影免费在线| 国产成人av激情在线播放| 人妻人人澡人人爽人人| 亚洲va日本ⅴa欧美va伊人久久 | 欧美变态另类bdsm刘玥| 欧美日韩亚洲综合一区二区三区_| 少妇裸体淫交视频免费看高清 | 色94色欧美一区二区| 叶爱在线成人免费视频播放| 18在线观看网站| 欧美黄色淫秽网站| 美国免费a级毛片| 女人被躁到高潮嗷嗷叫费观| 国产欧美日韩一区二区三 | 99re6热这里在线精品视频| 中文字幕人妻丝袜制服| 美女主播在线视频| 欧美精品av麻豆av| 久久精品国产综合久久久| 国产精品一二三区在线看| 国产野战对白在线观看| 1024香蕉在线观看| 1024视频免费在线观看| 视频区图区小说| 国产精品免费大片| 9191精品国产免费久久| 每晚都被弄得嗷嗷叫到高潮| 亚洲第一青青草原| 欧美精品一区二区大全| 18禁黄网站禁片午夜丰满| 亚洲 欧美一区二区三区| av免费在线观看网站| videos熟女内射| 在线天堂中文资源库| tocl精华| 欧美少妇被猛烈插入视频| 亚洲欧美清纯卡通| 99久久人妻综合| 在线天堂中文资源库| 免费人妻精品一区二区三区视频| 色综合欧美亚洲国产小说| 亚洲中文日韩欧美视频| 一二三四在线观看免费中文在| 日本欧美视频一区| 亚洲精品中文字幕一二三四区 | 久久精品成人免费网站| 一级毛片电影观看| 亚洲精品国产av成人精品| 每晚都被弄得嗷嗷叫到高潮| 国产xxxxx性猛交| 91av网站免费观看| 日韩大片免费观看网站| xxxhd国产人妻xxx| 欧美日韩av久久| 日韩电影二区| 亚洲av日韩在线播放| 一区二区av电影网| 国产精品一区二区在线不卡| 欧美人与性动交α欧美软件| 黑人巨大精品欧美一区二区蜜桃| 80岁老熟妇乱子伦牲交| www.av在线官网国产| 亚洲国产欧美一区二区综合| 精品一区二区三区四区五区乱码| 午夜激情久久久久久久| 欧美 亚洲 国产 日韩一| 亚洲成人免费av在线播放| 91成年电影在线观看| 桃花免费在线播放| 一本大道久久a久久精品| 十八禁高潮呻吟视频| 久久人妻熟女aⅴ| 狂野欧美激情性xxxx| 我要看黄色一级片免费的| 亚洲伊人色综图| 中文字幕另类日韩欧美亚洲嫩草| 亚洲伊人久久精品综合| 亚洲av片天天在线观看| 老熟女久久久| 欧美日韩亚洲综合一区二区三区_| 女人精品久久久久毛片| 搡老熟女国产l中国老女人| 嫩草影视91久久| 欧美日本中文国产一区发布| 欧美精品一区二区免费开放| 一区二区三区四区激情视频| 国产精品影院久久| 男女免费视频国产| 男女高潮啪啪啪动态图| 久久久久久免费高清国产稀缺| 日韩三级视频一区二区三区| 欧美日韩福利视频一区二区| 超碰成人久久| 另类亚洲欧美激情| 制服诱惑二区| 国产99久久九九免费精品| 久久人妻熟女aⅴ| 一本色道久久久久久精品综合| 欧美激情久久久久久爽电影 | 高清av免费在线| 又紧又爽又黄一区二区| 18禁国产床啪视频网站| 一区二区三区精品91| 一级毛片精品| 亚洲伊人色综图| 日本a在线网址| 亚洲成国产人片在线观看| 国产精品99久久99久久久不卡| 亚洲av美国av| 日本一区二区免费在线视频| 亚洲欧美清纯卡通| 国产精品久久久人人做人人爽| 最近最新免费中文字幕在线| 国产高清国产精品国产三级| 黄色 视频免费看| 亚洲精品粉嫩美女一区| bbb黄色大片| 国产成+人综合+亚洲专区| 午夜日韩欧美国产| 国产成人欧美| 人人妻人人澡人人爽人人夜夜| 午夜激情久久久久久久| 午夜两性在线视频| 国产一区二区激情短视频 | 侵犯人妻中文字幕一二三四区| 国产欧美日韩一区二区三 | 国产片内射在线| 亚洲国产欧美日韩在线播放| 国产欧美日韩一区二区三 | 青春草亚洲视频在线观看| 成人av一区二区三区在线看 | 色视频在线一区二区三区| 国产精品影院久久| 久久久久久久久久久久大奶| 国产高清videossex| 免费在线观看影片大全网站| 考比视频在线观看| 国产欧美日韩综合在线一区二区| 亚洲va日本ⅴa欧美va伊人久久 | 少妇被粗大的猛进出69影院| 日本av免费视频播放| 啦啦啦在线免费观看视频4| 亚洲第一av免费看| 国产精品偷伦视频观看了| 国产成人免费无遮挡视频| www.自偷自拍.com| 性色av乱码一区二区三区2| 国产日韩一区二区三区精品不卡| a级毛片黄视频| 免费在线观看完整版高清| 日韩制服骚丝袜av| 丝袜脚勾引网站| 国产三级黄色录像| 久久久国产一区二区| 国产一级毛片在线| 天堂中文最新版在线下载| 久久青草综合色| 男女无遮挡免费网站观看| 日韩熟女老妇一区二区性免费视频| 亚洲一卡2卡3卡4卡5卡精品中文| av电影中文网址| 亚洲精品美女久久久久99蜜臀| 亚洲第一欧美日韩一区二区三区 | 可以免费在线观看a视频的电影网站| 午夜两性在线视频| 欧美日韩亚洲综合一区二区三区_| 国产高清国产精品国产三级| 亚洲 国产 在线| 久久久久久久久久久久大奶| 91精品国产国语对白视频| 啦啦啦免费观看视频1| 制服诱惑二区| 久久久久网色| 在线精品无人区一区二区三| 狂野欧美激情性xxxx| 亚洲国产欧美日韩在线播放| 欧美在线一区亚洲| 窝窝影院91人妻| 国产主播在线观看一区二区| 久久精品亚洲av国产电影网| 一本久久精品| 久久亚洲国产成人精品v| 国产成人一区二区三区免费视频网站| 老司机亚洲免费影院| www.av在线官网国产| 亚洲欧洲日产国产| av在线app专区| 久久九九热精品免费| 五月天丁香电影| 成人免费观看视频高清| 国产男人的电影天堂91| 欧美亚洲日本最大视频资源| 永久免费av网站大全| 精品高清国产在线一区| 欧美午夜高清在线| 十分钟在线观看高清视频www| 久久久精品区二区三区| 最近中文字幕2019免费版| 欧美大码av| 美女午夜性视频免费| 18禁黄网站禁片午夜丰满| 亚洲成人免费电影在线观看| 叶爱在线成人免费视频播放| 淫妇啪啪啪对白视频 | 亚洲成人国产一区在线观看| 欧美人与性动交α欧美精品济南到| 亚洲午夜精品一区,二区,三区| 国产在线视频一区二区| 国产亚洲午夜精品一区二区久久| 午夜精品国产一区二区电影| 1024视频免费在线观看| 欧美乱码精品一区二区三区| a级片在线免费高清观看视频| 国产麻豆69| 欧美成人午夜精品| 少妇裸体淫交视频免费看高清 | 亚洲av日韩精品久久久久久密| 免费久久久久久久精品成人欧美视频| 在线观看人妻少妇| 在线观看免费午夜福利视频| 午夜两性在线视频| 亚洲欧美一区二区三区黑人| 9191精品国产免费久久| 国产一区二区三区综合在线观看| 日本猛色少妇xxxxx猛交久久| videos熟女内射| 女警被强在线播放| 天堂俺去俺来也www色官网| 国产亚洲精品久久久久5区| 午夜日韩欧美国产| 人人妻人人爽人人添夜夜欢视频| 国产精品免费大片| 亚洲av成人不卡在线观看播放网 | 亚洲av成人一区二区三| www.999成人在线观看| 午夜成年电影在线免费观看| 国产成人系列免费观看| 久久这里只有精品19| 亚洲精品中文字幕在线视频| 香蕉丝袜av| 免费av中文字幕在线| 久久狼人影院| 一级片'在线观看视频| 80岁老熟妇乱子伦牲交| 正在播放国产对白刺激| 午夜福利乱码中文字幕| 亚洲国产欧美在线一区| 日本五十路高清| 欧美日韩福利视频一区二区| 一区二区三区激情视频| 久久久久久久久久久久大奶| 一本综合久久免费| 日韩三级视频一区二区三区| 欧美另类一区| 岛国在线观看网站| 精品国产乱码久久久久久男人| 丁香六月欧美| 欧美日本中文国产一区发布| 我的亚洲天堂| 国产精品九九99| 国产精品亚洲av一区麻豆| 国产高清国产精品国产三级| 亚洲成av片中文字幕在线观看| 国产精品 欧美亚洲| 18禁国产床啪视频网站| 国产一区二区 视频在线| 在线精品无人区一区二区三| 99久久99久久久精品蜜桃| 亚洲中文av在线| 欧美乱码精品一区二区三区| av网站免费在线观看视频| 精品国产超薄肉色丝袜足j| 高清黄色对白视频在线免费看| 一级a爱视频在线免费观看| 超色免费av| 欧美日韩亚洲高清精品| 亚洲伊人久久精品综合| 亚洲专区中文字幕在线| 美女午夜性视频免费| 各种免费的搞黄视频| 国产免费av片在线观看野外av| 2018国产大陆天天弄谢| 国产一卡二卡三卡精品| 伦理电影免费视频| 久久久欧美国产精品| 国产片内射在线| 久久天堂一区二区三区四区| 成人影院久久| 国产伦理片在线播放av一区| 黄片播放在线免费| 老汉色av国产亚洲站长工具| 一级毛片女人18水好多| 成年人免费黄色播放视频| 国产免费视频播放在线视频| 国产一区二区三区综合在线观看| 日日夜夜操网爽| 视频区欧美日本亚洲| 黑人操中国人逼视频| 国产有黄有色有爽视频| 国产成+人综合+亚洲专区| 黄频高清免费视频| 成年人午夜在线观看视频| 欧美xxⅹ黑人| 男人爽女人下面视频在线观看| 欧美精品一区二区大全| 色老头精品视频在线观看| 最近最新免费中文字幕在线| 亚洲欧美精品综合一区二区三区| 国产黄色免费在线视频| 韩国高清视频一区二区三区| 日本av免费视频播放| 亚洲国产欧美日韩在线播放| 一进一出抽搐动态| 精品亚洲乱码少妇综合久久| 在线av久久热| 精品国产一区二区三区四区第35| 正在播放国产对白刺激| 19禁男女啪啪无遮挡网站| 美国免费a级毛片|