司鵬搏 吳 兵 楊睿哲 李 萌 孫艷華
(北京工業(yè)大學(xué)信息學(xué)部信息與通信工程學(xué)院 北京 100124)
無人機(jī)(unmanned aerial vehicle,UAV)由于其體積小、成本低、環(huán)境適應(yīng)力強(qiáng)等優(yōu)點(diǎn),獲得了廣泛關(guān)注,已被應(yīng)用在目標(biāo)追蹤[1]、通信[2]、監(jiān)測[3]、農(nóng)業(yè)[4]、災(zāi)難管理[5]等方面。無人機(jī)在完成任務(wù)時(shí),自主導(dǎo)航是實(shí)現(xiàn)對無人機(jī)控制的關(guān)鍵部分,因此,無人機(jī)路徑規(guī)劃是實(shí)現(xiàn)無人機(jī)自主飛行的重要因素。路徑規(guī)劃是確定無人機(jī)從起始點(diǎn)到目標(biāo)點(diǎn)的路徑,其目的不僅在于尋找最佳和最短的路徑,而且還為無人機(jī)提供無碰撞的環(huán)境,并在運(yùn)動(dòng)動(dòng)力學(xué)約束下優(yōu)化給定的成本函數(shù)[6]。
近年來,對無人機(jī)路徑規(guī)劃的研究越來越多。無人機(jī)飛行路徑規(guī)劃是一個(gè)復(fù)雜的優(yōu)化問題,需要考慮路徑長度、時(shí)間消耗、能量消耗、障礙規(guī)避、魯棒性等多個(gè)問題,文獻(xiàn)[7]提出一種基于多宇宙優(yōu)化器(multi-verse optimizer,MVO)的2D 無人機(jī)路徑規(guī)劃方案,將服務(wù)質(zhì)量(quality of service,QoS)作為衡量路徑優(yōu)劣的指標(biāo),考慮多個(gè)無人機(jī)的協(xié)同工作與碰撞,同時(shí)也將最短路徑與最短時(shí)間作為約束條件。文獻(xiàn)[8]研究一種城市環(huán)境中無人機(jī)導(dǎo)航覆蓋路徑規(guī)劃算法,考慮障礙物環(huán)境下無人機(jī)無障礙最短路徑的路徑規(guī)劃,并探索不同障礙物形狀對路徑的影響。在實(shí)現(xiàn)無人機(jī)路徑規(guī)劃優(yōu)化問題的探索中,研究學(xué)者提出了很多無人機(jī)路徑規(guī)劃算法,如A*算法[9]、人工勢場[10]、線性規(guī)劃[11]、隨機(jī)樹[12]等算法,但是,當(dāng)無人機(jī)路徑規(guī)劃具有多個(gè)約束條件時(shí),這些方法中的大多數(shù)都具有較高的時(shí)間復(fù)雜度和局部極小陷阱[13],且如果在大范圍的環(huán)境下,計(jì)算壓力也會(huì)急劇增加。
為了解決這些問題,將深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)算法引入無人機(jī)路徑規(guī)劃研究中。深度強(qiáng)化學(xué)習(xí)是將具有感知能力的深度學(xué)習(xí)與具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合,所形成的一種端對端的感知與控制系統(tǒng),使用函數(shù)擬合的方法對Q 表逼近,使其在高維環(huán)境下也有很好的效果,具有很強(qiáng)的通用性[14]。文獻(xiàn)[15]研究搜索和救援場景中的無人機(jī)導(dǎo)航,提出擴(kuò)展雙深度Q 網(wǎng)絡(luò)(double deep Q-network,DDQN)算法用于基于無人機(jī)捕獲的圖像來提高無人機(jī)對環(huán)境的理解,大幅減少了每個(gè)任務(wù)期間處理的數(shù)據(jù)量。文獻(xiàn)[13]將環(huán)境建模為有障礙的三維環(huán)境,提出將強(qiáng)化學(xué)習(xí)算法與灰狼優(yōu)化算法(grey wolf optimizer,GWO)結(jié)合的算法,并將路徑規(guī)劃分為搜索、幾何調(diào)整和最佳調(diào)整三部分,解決局部優(yōu)化中陷入困局和無人機(jī)路徑規(guī)劃不平穩(wěn)的問題。文獻(xiàn)[16]提出了一種快速態(tài)勢評(píng)估模型,能夠?qū)⑷颦h(huán)境狀況轉(zhuǎn)換為順序的態(tài)勢圖,采用了決斗雙深度Q 網(wǎng)絡(luò)(dueling double deep Q-network,D3QN)算法,并將ε 貪心策略與啟發(fā)式搜索規(guī)則結(jié)合選擇動(dòng)作,使用網(wǎng)格方法將動(dòng)作劃分為8 個(gè)離散的值。文獻(xiàn)[17]用Q 學(xué)習(xí)算法,并將Q值基于表的近似和神經(jīng)網(wǎng)絡(luò)(neural network,NN)近似進(jìn)行對比,而對于無人機(jī)的動(dòng)作值同樣需要離散化。以上深度強(qiáng)化學(xué)習(xí)算法的應(yīng)用雖然都取得了良好的效果,但大多數(shù)算法都需要將動(dòng)作空間離散化,這樣就限定了無人機(jī)只能在特定幾個(gè)方向進(jìn)行轉(zhuǎn)角與飛行,而在實(shí)際中無人機(jī)的飛行方向需是全方位的,且由于需不斷躲避障礙物,其高度也不斷變化,此時(shí),再將動(dòng)作值離散化會(huì)大幅增加計(jì)算負(fù)擔(dān)。
本文研究復(fù)雜環(huán)境、連續(xù)空間狀態(tài)下,無人機(jī)無碰撞的路徑規(guī)劃問題。首先,建立一種復(fù)雜3D 場景模型,將無人機(jī)任務(wù)過程劃分為飛行、等待、通信3 個(gè)階段;其次,提出一種無人機(jī)高度避障方法,引入偏離度δ 表示無人機(jī)與障礙物及目標(biāo)用戶的相對位置;最后,采用深度確定性策略梯度算法[18](deep deterministic policy gradient,DDPG)實(shí)現(xiàn)無人機(jī)路徑規(guī)劃,并與現(xiàn)有算法比較以驗(yàn)證提出方法的有效性。
假設(shè)在一定區(qū)域的城市空間中,分布著如手機(jī)、電腦等智能用戶,由于自然災(zāi)害、距離等原因,用戶不能直接與基站通信,為保障災(zāi)后救援,滿足用戶需求,使用體積小、對環(huán)境要求低的無人機(jī)作為中繼通信。無人機(jī)的飛行任務(wù)需滿足以下約束。
(1) 用戶(UEs)隨機(jī)分布,且UEs 之間互聯(lián)互通,每個(gè)UE 都能接收來自鄰近UEs 的消息。
(2) UAV 從結(jié)束收集UE 數(shù)據(jù)到結(jié)束收集下一個(gè)UE 數(shù)據(jù)為一個(gè)飛行任務(wù)。
(3) UAV 在一個(gè)任務(wù)中能量充足,不考慮由于能量耗盡導(dǎo)致任務(wù)終止。
如圖l 所示,包括1 個(gè)UAV 以及隨機(jī)分布的N個(gè)UEs 和M個(gè)障礙物OBs 。當(dāng)UE 有數(shù)據(jù)傳輸請求時(shí),會(huì)向全網(wǎng)廣播其位置信息。而位于UAV 通信范圍內(nèi)的UE 則會(huì)將其獲得的具有數(shù)據(jù)傳輸請求的UE 位置信息傳遞給UAV 。UAV 獲得數(shù)據(jù)請求信息后,利用深度確定性算法規(guī)劃路徑、規(guī)避障礙,向目標(biāo)UE 移動(dòng)并為其提供服務(wù)。UAV 服務(wù)完畢后,若無新的UE 數(shù)據(jù)上傳請求,UAV 將懸停在此處,等待新的目標(biāo)UE。實(shí)際情況中,UAV 由于體積小,搭載能量有限,UAV 需要在有限的能量限制下服務(wù)更多UE;同時(shí),為滿足用戶的服務(wù)質(zhì)量,需要在最短時(shí)間內(nèi)完成飛行任務(wù),并且避免與障礙物的碰撞。
圖1 無人機(jī)路徑規(guī)劃系統(tǒng)模型
假設(shè)UAV 已完成UEs 中Pn-1的數(shù)據(jù)收集,正在等待或直接前往Pn收集數(shù)據(jù),則無人機(jī)從Pn-1飛往Pn。
2.1.1 飛行距離
t時(shí)刻UAV 到UE 的位移dUP為
則,UAV 飛行的最短距離dmin為
實(shí)際情況中,UAV 需躲避障礙,避免碰撞,UAV實(shí)際飛行距離dU滿足:dU≥dmin。
2.1.2 俯仰角α 與偏航角β
UAV 的速度v與z軸的夾角為俯仰角α;UAV與Pn投影在xoy平面,UAV 的速度v與x軸的夾角為偏航角β,則:
αt、βt分別為t時(shí)刻的俯仰角和偏航角。
UAV 在飛行中,α 與β 隨UAV 速度的變化而不斷變化,則α 與β 的變化有以下規(guī)律:
2.2.1 障礙規(guī)避與目標(biāo)抵達(dá)
UAV 在接收到Pn的位置信息后,在向Pn飛行的過程中,需要避開障礙,盡可能到達(dá)Pn上方接收數(shù)據(jù),因此,引入偏離向量集Φ=,其中,輔助判斷UAV 與障礙物是否碰撞,其中:
對于UAV 懸停位置的判斷,引入目標(biāo)偏離向量σP=(σPx,σPy),其中:
當(dāng)UAV 到達(dá)目標(biāo)UE 附近,為提高數(shù)據(jù)傳輸效率,則存在極小值?(0 <? <1),使得UAV 懸停位置滿足以下約束條件:
2.2.2 任務(wù)時(shí)間
UAV 完成一個(gè)任務(wù)過程所需時(shí)間包括3 部分:飛行時(shí)間Tf、等待時(shí)間Tw、通信時(shí)間Tcom。
飛行時(shí)間Tf:UAV 從Pn-1出發(fā)至到達(dá)Pn耗費(fèi)的時(shí)間,當(dāng)UAV 以最大速度飛行最小距離時(shí),耗費(fèi)最短飛行時(shí)間為
UAV 在飛行中,為躲避障礙,需不斷改變飛行方向及飛行高度,則飛行時(shí)間Tf滿足:
等待時(shí)間Tw: UAV 等待下一個(gè)具有數(shù)據(jù)傳輸請求UE 出現(xiàn)的時(shí)間。
通信時(shí)間Tcom:UE 將數(shù)據(jù)傳輸?shù)経AV 耗費(fèi)的時(shí)間,在該過程中,數(shù)據(jù)接收率為R,則傳輸Dn數(shù)據(jù)量耗時(shí)為
綜上,UAV 完成從Pn-1到Pn的數(shù)據(jù)收集任務(wù)耗費(fèi)的總時(shí)間為
2.2.3 能量消耗
在一個(gè)數(shù)據(jù)收集過程中,耗能分為3 種,分別為飛行、等待、通信,各階段耗能情況如下。
飛行能耗:每時(shí)隙耗能ef,耗時(shí)Tf,則總耗能為
等待能耗:UAV 懸停在UE 上方每時(shí)隙耗能ew,耗時(shí)Tw,則懸??偤哪転?/p>
通信能耗:每時(shí)隙耗能ecom,耗時(shí)Tcom,則通信總耗能為
綜上,UAV 在一個(gè)任務(wù)中總耗能為
深度確定性策略梯度算法適用于連續(xù)動(dòng)作空間,包括Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)兩部分,二者利用深度神經(jīng)網(wǎng)絡(luò)分別實(shí)現(xiàn)對策略和Q函數(shù)的逼近[20-21]。DDPG 的訓(xùn)練過程如下。
(1) Actor 網(wǎng)絡(luò)在狀態(tài)st下給出動(dòng)作at=π(st),為了增加樣本的隨機(jī)性,會(huì)對Actor 網(wǎng)絡(luò)給出的動(dòng)作at=π(st) 增加一個(gè)隨機(jī)噪聲(使用Uhlenbeck-Ornstein 隨機(jī)過程,作為引入的隨機(jī)噪聲)A,即行為動(dòng)作φt=π(st)+A。
(2)動(dòng)作φt作用于環(huán)境,DDPG 得到獎(jiǎng)賞rt和下一個(gè)狀態(tài)st+1,DDPG 將集合(st,φt,rt,st+1) 存儲(chǔ)到經(jīng)驗(yàn)緩沖區(qū)H。
(3)DDPG 從經(jīng)驗(yàn)緩沖區(qū)隨機(jī)選取大小為K的小批量數(shù)據(jù)集作為Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的輸入。
(4)在Critic 網(wǎng)絡(luò),目標(biāo)Critic 網(wǎng)絡(luò)利用式(20)根據(jù)小批量數(shù)據(jù)集計(jì)算累計(jì)獎(jiǎng)賞更新:
在線Critic 網(wǎng)絡(luò)利用動(dòng)作φt逼近目標(biāo)Q值Qw(st,φt),并使用最小化損失函數(shù)式(21)進(jìn)行在線Critic 網(wǎng)絡(luò)的更新。
其中,ω 為在線Critic 網(wǎng)絡(luò)的參數(shù),ω' 為目標(biāo)Critic網(wǎng)絡(luò)的參數(shù),πθ'(st+1) 為目標(biāo)Actor 網(wǎng)絡(luò)根據(jù)小批量數(shù)據(jù)集得出的下一狀態(tài)的動(dòng)作。
(5)在Actor 網(wǎng)絡(luò)中,使用式(22):
對網(wǎng)絡(luò)進(jìn)行更新,其中,θ 為在線Actor 網(wǎng)絡(luò)的參數(shù),θ'為目標(biāo)Actor 網(wǎng)絡(luò)的參數(shù)。
(6)通過步驟(4)、(5)分別對在線Critic 網(wǎng)絡(luò)及Actor 網(wǎng)絡(luò)參數(shù)更新,而目標(biāo)網(wǎng)絡(luò)的參數(shù)以一定的頻率從在線網(wǎng)絡(luò)復(fù)制更新,更新規(guī)則分別為式(23a)與(23b)。
本文針對連續(xù)空間內(nèi)無人機(jī)路徑規(guī)劃,將適用于連續(xù)空間問題的DDPG 算法引入,以尋求滿足優(yōu)化目標(biāo)的最優(yōu)路徑。
動(dòng)作空間:t時(shí)刻分別在x軸、y軸、z軸方向的加速度,則t時(shí)刻的動(dòng)作值為
獎(jiǎng)賞:合理的獎(jiǎng)賞設(shè)置能夠更加快速地訓(xùn)練出最優(yōu)的策略。為使UAV 用最短時(shí)間、最小能量消耗到達(dá)目的點(diǎn),同時(shí)避開障礙,以及更加接近目的點(diǎn),則將獎(jiǎng)賞劃分以下幾個(gè)部分。
障礙物獎(jiǎng)賞robs:如果UAV 與障礙物的位置關(guān)系滿足式(7)、(8)、(9),則robs=0,否則robs=,并且結(jié)束游戲。
路徑獎(jiǎng)賞rTE: 主要包括對路徑中的時(shí)間及能耗的衡量。
目的點(diǎn)獎(jiǎng)賞rdes:衡量UAV 是否到達(dá)目的點(diǎn)完成任務(wù),rdes=。
區(qū)域獎(jiǎng)賞rb: 將UAV 限定在一定區(qū)域內(nèi),當(dāng)UAV 飛出該區(qū)域,rb=。
綜上,則t時(shí)刻總獎(jiǎng)賞為式(24)。
則基于DDPG 無人機(jī)路徑規(guī)劃算法(deep deterministic policy gradient algorithm UAV path planning,DDPG-UPP)具體內(nèi)容如算法1 所示。
本部分將通過仿真評(píng)估算法DDPG-UPP 的性能,仿真環(huán)境使用Python 3.6、TensorFlow 1.12。本實(shí)驗(yàn)將模擬500 m×500 m×500 m 區(qū)域內(nèi)無人機(jī)使用DDPG-UPP 算法從起點(diǎn)到目標(biāo)點(diǎn)的路徑規(guī)劃情況,其中障礙物隨機(jī)分布在該區(qū)域內(nèi)。本文測試DDPG-UPP 算法的性能通過不同學(xué)習(xí)率性能比較、不同算法及不同維度路徑規(guī)劃的性能比較,從而獲得最優(yōu)學(xué)習(xí)率并驗(yàn)證DDPG-UPP 算法的最優(yōu)性。仿真使用的各參數(shù)設(shè)置如表1 所示。
表1 仿真參數(shù)
算法1[22]采用演員評(píng)論家(Actor-Critic,AC)算法,并融合指針網(wǎng)絡(luò)(pointer network-A*,Ptr-A*)進(jìn)行無人機(jī)路徑規(guī)劃探索,將Ptr-A*的參數(shù)在小規(guī)模聚類問題實(shí)例上進(jìn)行訓(xùn)練,以便在Actor-Critic 算法中進(jìn)行更快的訓(xùn)練。
算法2[16]采用決斗雙深度Q 網(wǎng)絡(luò)D3QN 算法,同時(shí)使用ε-greedy 策略與啟發(fā)式搜索結(jié)合選擇動(dòng)作,實(shí)現(xiàn)離散環(huán)境下無人機(jī)自主路徑規(guī)劃。
算法3 采用了策略梯度(policy gradient,PG),將策略表示為連續(xù)函數(shù),并用梯度上升等連續(xù)函數(shù)優(yōu)化方法尋找最優(yōu)策略,有效彌補(bǔ)了基于值函數(shù)算法(DQN 等)適用場景的不足。
圖2、圖3 分別為在二維與三維環(huán)境下對無人機(jī)路徑規(guī)劃的效果采樣圖。圖3 對三維環(huán)境無人機(jī)路徑規(guī)劃仿真實(shí)驗(yàn)中設(shè)置無人機(jī)與目標(biāo)點(diǎn)的閾值為20,即當(dāng)無人機(jī)在以目標(biāo)點(diǎn)為中心、20 為半徑的球形區(qū)域內(nèi)時(shí),可認(rèn)為無人機(jī)到達(dá)目標(biāo)位置。通過對比,在將環(huán)境從二維拓展到三維并不斷增加障礙物數(shù)量的過程中,使用本文算法訓(xùn)練的無人機(jī)都能準(zhǔn)確到達(dá)目標(biāo)點(diǎn),同時(shí)精準(zhǔn)避開障礙物。
圖2 二維場景路徑仿真圖
圖3 三維場景路徑仿真圖
圖4 展示了算法DDPG-UPP 在不同學(xué)習(xí)率下的性能評(píng)估。學(xué)習(xí)率決定著目標(biāo)函數(shù)能否收斂到局部最小值以及何時(shí)收斂到最小值,合適的學(xué)習(xí)率能夠使目標(biāo)函數(shù)在合適的時(shí)間內(nèi)收斂到局部最小值。從圖4 可以看出,當(dāng)Actor 網(wǎng)絡(luò)學(xué)習(xí)率為0.005、0.001,Critic 網(wǎng)絡(luò)學(xué)習(xí)率為0.01、0.002 時(shí),隨著訓(xùn)練次數(shù)的增多,UAV 在不斷試錯(cuò)過程中獲得的獎(jiǎng)賞會(huì)逐漸穩(wěn)定,這表明UAV 學(xué)會(huì)到達(dá)目標(biāo)點(diǎn)并滿足約束條件的最優(yōu)路徑。同時(shí),如圖5 所示,UAV 到達(dá)相同的目標(biāo)點(diǎn)所需要的步數(shù)也逐漸減小,并穩(wěn)定到固定值,UAV 隨著學(xué)習(xí)次數(shù)的增多,能夠更加準(zhǔn)確地到達(dá)目標(biāo)點(diǎn)。而對于Actor 網(wǎng)絡(luò)學(xué)習(xí)率為0.0005、0.0001,Critic 網(wǎng)絡(luò)學(xué)習(xí)率為0.001、0.0002 時(shí),獎(jiǎng)賞值及到達(dá)相同目標(biāo)所需的步數(shù)雖然也收斂到定值,但相較于a=0.005、c=0.01 與a=0.001、c=0.002 的學(xué)習(xí)率,此時(shí)算法的性能并未達(dá)到最優(yōu),無人機(jī)學(xué)習(xí)到的路徑并不是最優(yōu)路徑。另外,當(dāng)學(xué)習(xí)率為Actor=0.01、Critic=0.02 時(shí),算法不收斂,無人機(jī)并不能學(xué)會(huì)到達(dá)目標(biāo)的最優(yōu)路徑。因此,學(xué)習(xí)率的大小對算法DDPG-UPP 的性能至關(guān)重要,能指導(dǎo)UAV 在合適的時(shí)間找到最優(yōu)路徑。
圖4 不同學(xué)習(xí)率下算法DDPG-UPP 的性能對比圖(Reward)
圖5 不同學(xué)習(xí)率下算法DDPG-UPP 的性能對比圖(Step)
圖6、圖7 分別為不同算法下無人機(jī)路徑規(guī)劃獎(jiǎng)賞以及到達(dá)相同目標(biāo)所需步數(shù)的對比圖。將本文提出的DDPG-UPP 算法與算法1、算法2、算法3 的性能比較,如圖6 所示,DDPG-UPP 算法用于UAV路徑規(guī)劃相較于算法1、算法2、算法3 收斂較快且獲得的獎(jiǎng)賞值也明顯高于其他3 種算法,表明使用DDPG-UPP 算法獲得的路徑在能耗及時(shí)間都是最少的。這是因?yàn)樗惴?、算法3 適用于離散動(dòng)作空間,UAV 在進(jìn)行訓(xùn)練前需將動(dòng)作空間離散化,而對于UAV 路徑規(guī)劃的動(dòng)作空間,要想實(shí)現(xiàn)UAV 更加自主、高效動(dòng)作,其離散動(dòng)作空間復(fù)雜化,且在每一次訓(xùn)練中,無人機(jī)只能在特定的幾個(gè)方向中選擇,大幅降低了無人機(jī)的靈活性;其次,對于算法1,雖然Actor-Critic 算法可用于連續(xù)動(dòng)作空間,但由于Actor 的行為取決于Critic 的值,Critic 難收斂導(dǎo)致Actor-Critic 算法很難收斂,盡管算法1 融入了指針網(wǎng)絡(luò)Ptr-A*以加快Actor-Critic 算法的收斂,但相較于本文算法仍有很大差距。本文算法也采用Actor-Critic結(jié)構(gòu),但融入了深度Q 網(wǎng)絡(luò)(deep Q-network,DQN)的優(yōu)勢,既解決了算法2 的空間離散問題,又區(qū)別于算法1、算法3 中Actor的概率分布輸出,而是以確定性的策略輸出加快了算法的收斂。因此,如圖6、圖7 所示,本文算法不僅能夠使UAV 更快獲得到達(dá)目標(biāo)的最優(yōu)路徑,而且使得無人機(jī)能耗及時(shí)間都是最小的,同時(shí)能在到達(dá)相同目標(biāo)時(shí)使用更少步數(shù)。
圖6 不同算法下無人機(jī)路徑規(guī)劃性能對比圖(Reward)
圖7 不同算法下無人機(jī)路徑規(guī)劃性能對比圖(Step)
圖8 為二維環(huán)境與三維環(huán)境下分別使用DDPGUPP 算法與算法2 的性能對比圖。首先,圖8 顯示無論是二維環(huán)境還是三維環(huán)境,使用DDPG-UPP 算法的性能都要優(yōu)于使用算法2。這是由于算法2 雖然改變了DQN 的模型結(jié)構(gòu),但仍需將動(dòng)作空間離散化,而針對本文無人機(jī)飛行環(huán)境,則至少需要將動(dòng)作空間離散為6 個(gè)維度,在每一次試錯(cuò)中,相較于本文算法,算法2 都增加了試錯(cuò)成本,同時(shí)也增加了計(jì)算復(fù)雜度,從而增加了無人機(jī)探索最佳路徑的難度;其次,DDPG-UPP 算法在無障礙環(huán)境中的獎(jiǎng)賞值要高于有障礙環(huán)境,且較有障礙環(huán)境更快收斂,這是因?yàn)榄h(huán)境中的障礙會(huì)在一定程度上阻礙無人機(jī)的探索,無人機(jī)需進(jìn)行更多次嘗試才能學(xué)習(xí)到最優(yōu)路徑;此外,對于本文算法,在同時(shí)考慮障礙物的環(huán)境下,在三維環(huán)境中的性能也要明顯優(yōu)于二維環(huán)境。綜上,本文算法在三維環(huán)境避障路徑選擇中相較于其他算法具有更優(yōu)的性能。
圖8 不同維度下無人機(jī)路徑規(guī)劃性能對比圖(2D 與3D)
本文研究了一種三維復(fù)雜環(huán)境下無人機(jī)路徑規(guī)劃方法,提出一種無人機(jī)高度避障方法,引入偏度δ表示無人機(jī)與障礙物及目標(biāo)用戶的相對位置,使UAV 能夠更加自主、靈活地避開障礙,更加適應(yīng)UAV 實(shí)際工作環(huán)境。另外,考慮UAV 動(dòng)作空間的連續(xù)性,采用深度確定性策略梯度算法進(jìn)行無人機(jī)路徑規(guī)劃。實(shí)驗(yàn)結(jié)果表明,本文算法能夠克服傳統(tǒng)算法需將動(dòng)作離散化的弊端,增加了環(huán)境適應(yīng)性。