• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于DDPG 三維無人機(jī)路徑規(guī)劃①

    2023-01-29 03:47:58司鵬搏楊睿哲孫艷華
    高技術(shù)通訊 2022年10期
    關(guān)鍵詞:障礙物深度規(guī)劃

    司鵬搏 吳 兵 楊睿哲 李 萌 孫艷華

    (北京工業(yè)大學(xué)信息學(xué)部信息與通信工程學(xué)院 北京 100124)

    0 引言

    無人機(jī)(unmanned aerial vehicle,UAV)由于其體積小、成本低、環(huán)境適應(yīng)力強(qiáng)等優(yōu)點(diǎn),獲得了廣泛關(guān)注,已被應(yīng)用在目標(biāo)追蹤[1]、通信[2]、監(jiān)測[3]、農(nóng)業(yè)[4]、災(zāi)難管理[5]等方面。無人機(jī)在完成任務(wù)時(shí),自主導(dǎo)航是實(shí)現(xiàn)對無人機(jī)控制的關(guān)鍵部分,因此,無人機(jī)路徑規(guī)劃是實(shí)現(xiàn)無人機(jī)自主飛行的重要因素。路徑規(guī)劃是確定無人機(jī)從起始點(diǎn)到目標(biāo)點(diǎn)的路徑,其目的不僅在于尋找最佳和最短的路徑,而且還為無人機(jī)提供無碰撞的環(huán)境,并在運(yùn)動(dòng)動(dòng)力學(xué)約束下優(yōu)化給定的成本函數(shù)[6]。

    近年來,對無人機(jī)路徑規(guī)劃的研究越來越多。無人機(jī)飛行路徑規(guī)劃是一個(gè)復(fù)雜的優(yōu)化問題,需要考慮路徑長度、時(shí)間消耗、能量消耗、障礙規(guī)避、魯棒性等多個(gè)問題,文獻(xiàn)[7]提出一種基于多宇宙優(yōu)化器(multi-verse optimizer,MVO)的2D 無人機(jī)路徑規(guī)劃方案,將服務(wù)質(zhì)量(quality of service,QoS)作為衡量路徑優(yōu)劣的指標(biāo),考慮多個(gè)無人機(jī)的協(xié)同工作與碰撞,同時(shí)也將最短路徑與最短時(shí)間作為約束條件。文獻(xiàn)[8]研究一種城市環(huán)境中無人機(jī)導(dǎo)航覆蓋路徑規(guī)劃算法,考慮障礙物環(huán)境下無人機(jī)無障礙最短路徑的路徑規(guī)劃,并探索不同障礙物形狀對路徑的影響。在實(shí)現(xiàn)無人機(jī)路徑規(guī)劃優(yōu)化問題的探索中,研究學(xué)者提出了很多無人機(jī)路徑規(guī)劃算法,如A*算法[9]、人工勢場[10]、線性規(guī)劃[11]、隨機(jī)樹[12]等算法,但是,當(dāng)無人機(jī)路徑規(guī)劃具有多個(gè)約束條件時(shí),這些方法中的大多數(shù)都具有較高的時(shí)間復(fù)雜度和局部極小陷阱[13],且如果在大范圍的環(huán)境下,計(jì)算壓力也會(huì)急劇增加。

    為了解決這些問題,將深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)算法引入無人機(jī)路徑規(guī)劃研究中。深度強(qiáng)化學(xué)習(xí)是將具有感知能力的深度學(xué)習(xí)與具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合,所形成的一種端對端的感知與控制系統(tǒng),使用函數(shù)擬合的方法對Q 表逼近,使其在高維環(huán)境下也有很好的效果,具有很強(qiáng)的通用性[14]。文獻(xiàn)[15]研究搜索和救援場景中的無人機(jī)導(dǎo)航,提出擴(kuò)展雙深度Q 網(wǎng)絡(luò)(double deep Q-network,DDQN)算法用于基于無人機(jī)捕獲的圖像來提高無人機(jī)對環(huán)境的理解,大幅減少了每個(gè)任務(wù)期間處理的數(shù)據(jù)量。文獻(xiàn)[13]將環(huán)境建模為有障礙的三維環(huán)境,提出將強(qiáng)化學(xué)習(xí)算法與灰狼優(yōu)化算法(grey wolf optimizer,GWO)結(jié)合的算法,并將路徑規(guī)劃分為搜索、幾何調(diào)整和最佳調(diào)整三部分,解決局部優(yōu)化中陷入困局和無人機(jī)路徑規(guī)劃不平穩(wěn)的問題。文獻(xiàn)[16]提出了一種快速態(tài)勢評(píng)估模型,能夠?qū)⑷颦h(huán)境狀況轉(zhuǎn)換為順序的態(tài)勢圖,采用了決斗雙深度Q 網(wǎng)絡(luò)(dueling double deep Q-network,D3QN)算法,并將ε 貪心策略與啟發(fā)式搜索規(guī)則結(jié)合選擇動(dòng)作,使用網(wǎng)格方法將動(dòng)作劃分為8 個(gè)離散的值。文獻(xiàn)[17]用Q 學(xué)習(xí)算法,并將Q值基于表的近似和神經(jīng)網(wǎng)絡(luò)(neural network,NN)近似進(jìn)行對比,而對于無人機(jī)的動(dòng)作值同樣需要離散化。以上深度強(qiáng)化學(xué)習(xí)算法的應(yīng)用雖然都取得了良好的效果,但大多數(shù)算法都需要將動(dòng)作空間離散化,這樣就限定了無人機(jī)只能在特定幾個(gè)方向進(jìn)行轉(zhuǎn)角與飛行,而在實(shí)際中無人機(jī)的飛行方向需是全方位的,且由于需不斷躲避障礙物,其高度也不斷變化,此時(shí),再將動(dòng)作值離散化會(huì)大幅增加計(jì)算負(fù)擔(dān)。

    本文研究復(fù)雜環(huán)境、連續(xù)空間狀態(tài)下,無人機(jī)無碰撞的路徑規(guī)劃問題。首先,建立一種復(fù)雜3D 場景模型,將無人機(jī)任務(wù)過程劃分為飛行、等待、通信3 個(gè)階段;其次,提出一種無人機(jī)高度避障方法,引入偏離度δ 表示無人機(jī)與障礙物及目標(biāo)用戶的相對位置;最后,采用深度確定性策略梯度算法[18](deep deterministic policy gradient,DDPG)實(shí)現(xiàn)無人機(jī)路徑規(guī)劃,并與現(xiàn)有算法比較以驗(yàn)證提出方法的有效性。

    1 系統(tǒng)模型

    假設(shè)在一定區(qū)域的城市空間中,分布著如手機(jī)、電腦等智能用戶,由于自然災(zāi)害、距離等原因,用戶不能直接與基站通信,為保障災(zāi)后救援,滿足用戶需求,使用體積小、對環(huán)境要求低的無人機(jī)作為中繼通信。無人機(jī)的飛行任務(wù)需滿足以下約束。

    (1) 用戶(UEs)隨機(jī)分布,且UEs 之間互聯(lián)互通,每個(gè)UE 都能接收來自鄰近UEs 的消息。

    (2) UAV 從結(jié)束收集UE 數(shù)據(jù)到結(jié)束收集下一個(gè)UE 數(shù)據(jù)為一個(gè)飛行任務(wù)。

    (3) UAV 在一個(gè)任務(wù)中能量充足,不考慮由于能量耗盡導(dǎo)致任務(wù)終止。

    如圖l 所示,包括1 個(gè)UAV 以及隨機(jī)分布的N個(gè)UEs 和M個(gè)障礙物OBs 。當(dāng)UE 有數(shù)據(jù)傳輸請求時(shí),會(huì)向全網(wǎng)廣播其位置信息。而位于UAV 通信范圍內(nèi)的UE 則會(huì)將其獲得的具有數(shù)據(jù)傳輸請求的UE 位置信息傳遞給UAV 。UAV 獲得數(shù)據(jù)請求信息后,利用深度確定性算法規(guī)劃路徑、規(guī)避障礙,向目標(biāo)UE 移動(dòng)并為其提供服務(wù)。UAV 服務(wù)完畢后,若無新的UE 數(shù)據(jù)上傳請求,UAV 將懸停在此處,等待新的目標(biāo)UE。實(shí)際情況中,UAV 由于體積小,搭載能量有限,UAV 需要在有限的能量限制下服務(wù)更多UE;同時(shí),為滿足用戶的服務(wù)質(zhì)量,需要在最短時(shí)間內(nèi)完成飛行任務(wù),并且避免與障礙物的碰撞。

    圖1 無人機(jī)路徑規(guī)劃系統(tǒng)模型

    2 無人機(jī)任務(wù)建模與分析

    假設(shè)UAV 已完成UEs 中Pn-1的數(shù)據(jù)收集,正在等待或直接前往Pn收集數(shù)據(jù),則無人機(jī)從Pn-1飛往Pn。

    2.1 任務(wù)建模

    2.1.1 飛行距離

    t時(shí)刻UAV 到UE 的位移dUP為

    則,UAV 飛行的最短距離dmin為

    實(shí)際情況中,UAV 需躲避障礙,避免碰撞,UAV實(shí)際飛行距離dU滿足:dU≥dmin。

    2.1.2 俯仰角α 與偏航角β

    UAV 的速度v與z軸的夾角為俯仰角α;UAV與Pn投影在xoy平面,UAV 的速度v與x軸的夾角為偏航角β,則:

    αt、βt分別為t時(shí)刻的俯仰角和偏航角。

    UAV 在飛行中,α 與β 隨UAV 速度的變化而不斷變化,則α 與β 的變化有以下規(guī)律:

    2.2 成本函數(shù)

    2.2.1 障礙規(guī)避與目標(biāo)抵達(dá)

    UAV 在接收到Pn的位置信息后,在向Pn飛行的過程中,需要避開障礙,盡可能到達(dá)Pn上方接收數(shù)據(jù),因此,引入偏離向量集Φ=,其中,輔助判斷UAV 與障礙物是否碰撞,其中:

    對于UAV 懸停位置的判斷,引入目標(biāo)偏離向量σP=(σPx,σPy),其中:

    當(dāng)UAV 到達(dá)目標(biāo)UE 附近,為提高數(shù)據(jù)傳輸效率,則存在極小值?(0 <? <1),使得UAV 懸停位置滿足以下約束條件:

    2.2.2 任務(wù)時(shí)間

    UAV 完成一個(gè)任務(wù)過程所需時(shí)間包括3 部分:飛行時(shí)間Tf、等待時(shí)間Tw、通信時(shí)間Tcom。

    飛行時(shí)間Tf:UAV 從Pn-1出發(fā)至到達(dá)Pn耗費(fèi)的時(shí)間,當(dāng)UAV 以最大速度飛行最小距離時(shí),耗費(fèi)最短飛行時(shí)間為

    UAV 在飛行中,為躲避障礙,需不斷改變飛行方向及飛行高度,則飛行時(shí)間Tf滿足:

    等待時(shí)間Tw: UAV 等待下一個(gè)具有數(shù)據(jù)傳輸請求UE 出現(xiàn)的時(shí)間。

    通信時(shí)間Tcom:UE 將數(shù)據(jù)傳輸?shù)経AV 耗費(fèi)的時(shí)間,在該過程中,數(shù)據(jù)接收率為R,則傳輸Dn數(shù)據(jù)量耗時(shí)為

    綜上,UAV 完成從Pn-1到Pn的數(shù)據(jù)收集任務(wù)耗費(fèi)的總時(shí)間為

    2.2.3 能量消耗

    在一個(gè)數(shù)據(jù)收集過程中,耗能分為3 種,分別為飛行、等待、通信,各階段耗能情況如下。

    飛行能耗:每時(shí)隙耗能ef,耗時(shí)Tf,則總耗能為

    等待能耗:UAV 懸停在UE 上方每時(shí)隙耗能ew,耗時(shí)Tw,則懸??偤哪転?/p>

    通信能耗:每時(shí)隙耗能ecom,耗時(shí)Tcom,則通信總耗能為

    綜上,UAV 在一個(gè)任務(wù)中總耗能為

    3 基于DDPG 的無人機(jī)路徑規(guī)劃

    3.1 深度確定性策略梯度算法

    深度確定性策略梯度算法適用于連續(xù)動(dòng)作空間,包括Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)兩部分,二者利用深度神經(jīng)網(wǎng)絡(luò)分別實(shí)現(xiàn)對策略和Q函數(shù)的逼近[20-21]。DDPG 的訓(xùn)練過程如下。

    (1) Actor 網(wǎng)絡(luò)在狀態(tài)st下給出動(dòng)作at=π(st),為了增加樣本的隨機(jī)性,會(huì)對Actor 網(wǎng)絡(luò)給出的動(dòng)作at=π(st) 增加一個(gè)隨機(jī)噪聲(使用Uhlenbeck-Ornstein 隨機(jī)過程,作為引入的隨機(jī)噪聲)A,即行為動(dòng)作φt=π(st)+A。

    (2)動(dòng)作φt作用于環(huán)境,DDPG 得到獎(jiǎng)賞rt和下一個(gè)狀態(tài)st+1,DDPG 將集合(st,φt,rt,st+1) 存儲(chǔ)到經(jīng)驗(yàn)緩沖區(qū)H。

    (3)DDPG 從經(jīng)驗(yàn)緩沖區(qū)隨機(jī)選取大小為K的小批量數(shù)據(jù)集作為Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的輸入。

    (4)在Critic 網(wǎng)絡(luò),目標(biāo)Critic 網(wǎng)絡(luò)利用式(20)根據(jù)小批量數(shù)據(jù)集計(jì)算累計(jì)獎(jiǎng)賞更新:

    在線Critic 網(wǎng)絡(luò)利用動(dòng)作φt逼近目標(biāo)Q值Qw(st,φt),并使用最小化損失函數(shù)式(21)進(jìn)行在線Critic 網(wǎng)絡(luò)的更新。

    其中,ω 為在線Critic 網(wǎng)絡(luò)的參數(shù),ω' 為目標(biāo)Critic網(wǎng)絡(luò)的參數(shù),πθ'(st+1) 為目標(biāo)Actor 網(wǎng)絡(luò)根據(jù)小批量數(shù)據(jù)集得出的下一狀態(tài)的動(dòng)作。

    (5)在Actor 網(wǎng)絡(luò)中,使用式(22):

    對網(wǎng)絡(luò)進(jìn)行更新,其中,θ 為在線Actor 網(wǎng)絡(luò)的參數(shù),θ'為目標(biāo)Actor 網(wǎng)絡(luò)的參數(shù)。

    (6)通過步驟(4)、(5)分別對在線Critic 網(wǎng)絡(luò)及Actor 網(wǎng)絡(luò)參數(shù)更新,而目標(biāo)網(wǎng)絡(luò)的參數(shù)以一定的頻率從在線網(wǎng)絡(luò)復(fù)制更新,更新規(guī)則分別為式(23a)與(23b)。

    3.2 基于DDPG 的無人機(jī)路徑規(guī)劃設(shè)計(jì)

    本文針對連續(xù)空間內(nèi)無人機(jī)路徑規(guī)劃,將適用于連續(xù)空間問題的DDPG 算法引入,以尋求滿足優(yōu)化目標(biāo)的最優(yōu)路徑。

    動(dòng)作空間:t時(shí)刻分別在x軸、y軸、z軸方向的加速度,則t時(shí)刻的動(dòng)作值為

    獎(jiǎng)賞:合理的獎(jiǎng)賞設(shè)置能夠更加快速地訓(xùn)練出最優(yōu)的策略。為使UAV 用最短時(shí)間、最小能量消耗到達(dá)目的點(diǎn),同時(shí)避開障礙,以及更加接近目的點(diǎn),則將獎(jiǎng)賞劃分以下幾個(gè)部分。

    障礙物獎(jiǎng)賞robs:如果UAV 與障礙物的位置關(guān)系滿足式(7)、(8)、(9),則robs=0,否則robs=,并且結(jié)束游戲。

    路徑獎(jiǎng)賞rTE: 主要包括對路徑中的時(shí)間及能耗的衡量。

    目的點(diǎn)獎(jiǎng)賞rdes:衡量UAV 是否到達(dá)目的點(diǎn)完成任務(wù),rdes=。

    區(qū)域獎(jiǎng)賞rb: 將UAV 限定在一定區(qū)域內(nèi),當(dāng)UAV 飛出該區(qū)域,rb=。

    綜上,則t時(shí)刻總獎(jiǎng)賞為式(24)。

    則基于DDPG 無人機(jī)路徑規(guī)劃算法(deep deterministic policy gradient algorithm UAV path planning,DDPG-UPP)具體內(nèi)容如算法1 所示。

    4 仿真分析

    本部分將通過仿真評(píng)估算法DDPG-UPP 的性能,仿真環(huán)境使用Python 3.6、TensorFlow 1.12。本實(shí)驗(yàn)將模擬500 m×500 m×500 m 區(qū)域內(nèi)無人機(jī)使用DDPG-UPP 算法從起點(diǎn)到目標(biāo)點(diǎn)的路徑規(guī)劃情況,其中障礙物隨機(jī)分布在該區(qū)域內(nèi)。本文測試DDPG-UPP 算法的性能通過不同學(xué)習(xí)率性能比較、不同算法及不同維度路徑規(guī)劃的性能比較,從而獲得最優(yōu)學(xué)習(xí)率并驗(yàn)證DDPG-UPP 算法的最優(yōu)性。仿真使用的各參數(shù)設(shè)置如表1 所示。

    表1 仿真參數(shù)

    算法1[22]采用演員評(píng)論家(Actor-Critic,AC)算法,并融合指針網(wǎng)絡(luò)(pointer network-A*,Ptr-A*)進(jìn)行無人機(jī)路徑規(guī)劃探索,將Ptr-A*的參數(shù)在小規(guī)模聚類問題實(shí)例上進(jìn)行訓(xùn)練,以便在Actor-Critic 算法中進(jìn)行更快的訓(xùn)練。

    算法2[16]采用決斗雙深度Q 網(wǎng)絡(luò)D3QN 算法,同時(shí)使用ε-greedy 策略與啟發(fā)式搜索結(jié)合選擇動(dòng)作,實(shí)現(xiàn)離散環(huán)境下無人機(jī)自主路徑規(guī)劃。

    算法3 采用了策略梯度(policy gradient,PG),將策略表示為連續(xù)函數(shù),并用梯度上升等連續(xù)函數(shù)優(yōu)化方法尋找最優(yōu)策略,有效彌補(bǔ)了基于值函數(shù)算法(DQN 等)適用場景的不足。

    圖2、圖3 分別為在二維與三維環(huán)境下對無人機(jī)路徑規(guī)劃的效果采樣圖。圖3 對三維環(huán)境無人機(jī)路徑規(guī)劃仿真實(shí)驗(yàn)中設(shè)置無人機(jī)與目標(biāo)點(diǎn)的閾值為20,即當(dāng)無人機(jī)在以目標(biāo)點(diǎn)為中心、20 為半徑的球形區(qū)域內(nèi)時(shí),可認(rèn)為無人機(jī)到達(dá)目標(biāo)位置。通過對比,在將環(huán)境從二維拓展到三維并不斷增加障礙物數(shù)量的過程中,使用本文算法訓(xùn)練的無人機(jī)都能準(zhǔn)確到達(dá)目標(biāo)點(diǎn),同時(shí)精準(zhǔn)避開障礙物。

    圖2 二維場景路徑仿真圖

    圖3 三維場景路徑仿真圖

    圖4 展示了算法DDPG-UPP 在不同學(xué)習(xí)率下的性能評(píng)估。學(xué)習(xí)率決定著目標(biāo)函數(shù)能否收斂到局部最小值以及何時(shí)收斂到最小值,合適的學(xué)習(xí)率能夠使目標(biāo)函數(shù)在合適的時(shí)間內(nèi)收斂到局部最小值。從圖4 可以看出,當(dāng)Actor 網(wǎng)絡(luò)學(xué)習(xí)率為0.005、0.001,Critic 網(wǎng)絡(luò)學(xué)習(xí)率為0.01、0.002 時(shí),隨著訓(xùn)練次數(shù)的增多,UAV 在不斷試錯(cuò)過程中獲得的獎(jiǎng)賞會(huì)逐漸穩(wěn)定,這表明UAV 學(xué)會(huì)到達(dá)目標(biāo)點(diǎn)并滿足約束條件的最優(yōu)路徑。同時(shí),如圖5 所示,UAV 到達(dá)相同的目標(biāo)點(diǎn)所需要的步數(shù)也逐漸減小,并穩(wěn)定到固定值,UAV 隨著學(xué)習(xí)次數(shù)的增多,能夠更加準(zhǔn)確地到達(dá)目標(biāo)點(diǎn)。而對于Actor 網(wǎng)絡(luò)學(xué)習(xí)率為0.0005、0.0001,Critic 網(wǎng)絡(luò)學(xué)習(xí)率為0.001、0.0002 時(shí),獎(jiǎng)賞值及到達(dá)相同目標(biāo)所需的步數(shù)雖然也收斂到定值,但相較于a=0.005、c=0.01 與a=0.001、c=0.002 的學(xué)習(xí)率,此時(shí)算法的性能并未達(dá)到最優(yōu),無人機(jī)學(xué)習(xí)到的路徑并不是最優(yōu)路徑。另外,當(dāng)學(xué)習(xí)率為Actor=0.01、Critic=0.02 時(shí),算法不收斂,無人機(jī)并不能學(xué)會(huì)到達(dá)目標(biāo)的最優(yōu)路徑。因此,學(xué)習(xí)率的大小對算法DDPG-UPP 的性能至關(guān)重要,能指導(dǎo)UAV 在合適的時(shí)間找到最優(yōu)路徑。

    圖4 不同學(xué)習(xí)率下算法DDPG-UPP 的性能對比圖(Reward)

    圖5 不同學(xué)習(xí)率下算法DDPG-UPP 的性能對比圖(Step)

    圖6、圖7 分別為不同算法下無人機(jī)路徑規(guī)劃獎(jiǎng)賞以及到達(dá)相同目標(biāo)所需步數(shù)的對比圖。將本文提出的DDPG-UPP 算法與算法1、算法2、算法3 的性能比較,如圖6 所示,DDPG-UPP 算法用于UAV路徑規(guī)劃相較于算法1、算法2、算法3 收斂較快且獲得的獎(jiǎng)賞值也明顯高于其他3 種算法,表明使用DDPG-UPP 算法獲得的路徑在能耗及時(shí)間都是最少的。這是因?yàn)樗惴?、算法3 適用于離散動(dòng)作空間,UAV 在進(jìn)行訓(xùn)練前需將動(dòng)作空間離散化,而對于UAV 路徑規(guī)劃的動(dòng)作空間,要想實(shí)現(xiàn)UAV 更加自主、高效動(dòng)作,其離散動(dòng)作空間復(fù)雜化,且在每一次訓(xùn)練中,無人機(jī)只能在特定的幾個(gè)方向中選擇,大幅降低了無人機(jī)的靈活性;其次,對于算法1,雖然Actor-Critic 算法可用于連續(xù)動(dòng)作空間,但由于Actor 的行為取決于Critic 的值,Critic 難收斂導(dǎo)致Actor-Critic 算法很難收斂,盡管算法1 融入了指針網(wǎng)絡(luò)Ptr-A*以加快Actor-Critic 算法的收斂,但相較于本文算法仍有很大差距。本文算法也采用Actor-Critic結(jié)構(gòu),但融入了深度Q 網(wǎng)絡(luò)(deep Q-network,DQN)的優(yōu)勢,既解決了算法2 的空間離散問題,又區(qū)別于算法1、算法3 中Actor的概率分布輸出,而是以確定性的策略輸出加快了算法的收斂。因此,如圖6、圖7 所示,本文算法不僅能夠使UAV 更快獲得到達(dá)目標(biāo)的最優(yōu)路徑,而且使得無人機(jī)能耗及時(shí)間都是最小的,同時(shí)能在到達(dá)相同目標(biāo)時(shí)使用更少步數(shù)。

    圖6 不同算法下無人機(jī)路徑規(guī)劃性能對比圖(Reward)

    圖7 不同算法下無人機(jī)路徑規(guī)劃性能對比圖(Step)

    圖8 為二維環(huán)境與三維環(huán)境下分別使用DDPGUPP 算法與算法2 的性能對比圖。首先,圖8 顯示無論是二維環(huán)境還是三維環(huán)境,使用DDPG-UPP 算法的性能都要優(yōu)于使用算法2。這是由于算法2 雖然改變了DQN 的模型結(jié)構(gòu),但仍需將動(dòng)作空間離散化,而針對本文無人機(jī)飛行環(huán)境,則至少需要將動(dòng)作空間離散為6 個(gè)維度,在每一次試錯(cuò)中,相較于本文算法,算法2 都增加了試錯(cuò)成本,同時(shí)也增加了計(jì)算復(fù)雜度,從而增加了無人機(jī)探索最佳路徑的難度;其次,DDPG-UPP 算法在無障礙環(huán)境中的獎(jiǎng)賞值要高于有障礙環(huán)境,且較有障礙環(huán)境更快收斂,這是因?yàn)榄h(huán)境中的障礙會(huì)在一定程度上阻礙無人機(jī)的探索,無人機(jī)需進(jìn)行更多次嘗試才能學(xué)習(xí)到最優(yōu)路徑;此外,對于本文算法,在同時(shí)考慮障礙物的環(huán)境下,在三維環(huán)境中的性能也要明顯優(yōu)于二維環(huán)境。綜上,本文算法在三維環(huán)境避障路徑選擇中相較于其他算法具有更優(yōu)的性能。

    圖8 不同維度下無人機(jī)路徑規(guī)劃性能對比圖(2D 與3D)

    5 結(jié)論

    本文研究了一種三維復(fù)雜環(huán)境下無人機(jī)路徑規(guī)劃方法,提出一種無人機(jī)高度避障方法,引入偏度δ表示無人機(jī)與障礙物及目標(biāo)用戶的相對位置,使UAV 能夠更加自主、靈活地避開障礙,更加適應(yīng)UAV 實(shí)際工作環(huán)境。另外,考慮UAV 動(dòng)作空間的連續(xù)性,采用深度確定性策略梯度算法進(jìn)行無人機(jī)路徑規(guī)劃。實(shí)驗(yàn)結(jié)果表明,本文算法能夠克服傳統(tǒng)算法需將動(dòng)作離散化的弊端,增加了環(huán)境適應(yīng)性。

    猜你喜歡
    障礙物深度規(guī)劃
    深度理解一元一次方程
    高低翻越
    SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
    深度觀察
    深度觀察
    深度觀察
    規(guī)劃引領(lǐng)把握未來
    快遞業(yè)十三五規(guī)劃發(fā)布
    商周刊(2017年5期)2017-08-22 03:35:26
    多管齊下落實(shí)規(guī)劃
    迎接“十三五”規(guī)劃
    卓尼县| 桃园市| 淮安市| 洱源县| 竹山县| 武清区| 华容县| 本溪市| 和静县| 云霄县| 祥云县| 甘谷县| 金乡县| 松阳县| 黎城县| 崇阳县| 山阳县| 南投县| 阳东县| 新密市| 华蓥市| 荆门市| 内黄县| 汉沽区| 庆阳市| 米易县| 商城县| 瑞昌市| 东宁县| 嘉峪关市| 隆昌县| 铅山县| 阿拉善右旗| 宁晋县| 巧家县| 沈丘县| 平顺县| 池州市| 武功县| 上杭县| 金昌市|