• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強化學習的無人機實時航跡規(guī)劃

    2024-01-18 10:23:42舒健生周于翔鄭曉龍賴曉昌陶大甜
    火力與指揮控制 2023年12期
    關鍵詞:動作環(huán)境實驗

    舒健生,周于翔*,鄭曉龍,賴曉昌,陶大甜

    (1.火箭軍工程大學,西安 710025;2.武漢理工大學信息工程學院,武漢 430070)

    0 引言

    由于較好的機動性和靈活性,無人機(unmanned aerial vehicle,UAV)在戰(zhàn)場打擊任務、災后搜索和救援任務等方面具有廣泛的發(fā)展空間和良好的發(fā)展前景,UAV 需要較高的自主能力和實時航跡規(guī)劃能力,以應對復雜多變的飛行環(huán)境,而國內(nèi)外的研究主要集中于固定靜態(tài)環(huán)境的無人機航跡規(guī)劃問題。因此,無人機在獲取動態(tài)變化的環(huán)境信息后,進行實時機動避障的能力變得尤為重要。當前解決航跡規(guī)劃問題的傳統(tǒng)算法主要包括:Dijkstra、A*算法、RRT*算法、粒子群算法、蟻群算法和人工勢場法等[1-6],以及相關的改進算法。但是由于機載計算機的容量和計算能力有限,而傳統(tǒng)路徑規(guī)劃算法的算法復雜度較高、計算量較大,無人機的實時航跡規(guī)劃仍然是一個亟待解決的重要問題。

    2013 年,DeepMind 團隊利用神經(jīng)網(wǎng)絡的擬合功能,將觀測到的高維環(huán)境數(shù)據(jù)擬合為Q 表[7],創(chuàng)新性地提出了DQN 模型,解決了對高維連續(xù)狀態(tài)空間表征的問題,使深度強化學習成為人工智能領域的一個研究熱點。強化學習算法相對于傳統(tǒng)算法而言,泛化性更好,對動態(tài)變化的環(huán)境具有更強的適應能力,且能更好地滿足在線航跡規(guī)劃問題的實時性要求。目前,該算法在離線路徑規(guī)劃、在線路徑規(guī)劃,以及多智能體導航等方面都取得了不錯的成果。郝釧釧等使用Q-learning 算法進行優(yōu)化,設計連續(xù)回報函數(shù),解決了獎勵稀疏的問題,但容易產(chǎn)生數(shù)值抖動,算法收斂性不足[8]。王珂等將Q-learning算法與A3C 算法相結合,提出基于最小深度信息的有選擇的訓練模型,解決了由于動作選擇缺乏針對性而導致算法收斂速度較慢的問題,但依然存在收斂不穩(wěn)定的問題[9]。Q-learning 的狀態(tài)空間和動作空間都是離散的,生成的航跡平滑性較差,與實際飛行情況的差別較大。

    此后產(chǎn)生了一些效果更優(yōu)、更穩(wěn)定、收斂速度更快的算法,如:PPO 算法、SAC 算法和TD3 算法[10-12]。3 種算法各有優(yōu)劣,其中,PPO 算法穩(wěn)定較好,對參數(shù)的依賴較小,被Deep AI 公司設定為默認算法;TD3 算法在DDPG 算法的基礎上進行改進,采用雙Q 網(wǎng)絡的形式避免了過估計情況的產(chǎn)生,其優(yōu)化效果優(yōu)勝于DDPG 算法;而SAC 算法是一種最大熵強化學習算法,能夠探索到更多動作,有效避免了過估計情況的產(chǎn)生。徐國艷等設計改進人工勢場法對agent 的位置進行評價,并將其作為過程獎勵,大幅加快了PPO 算法的收斂速度[10]。GRANDO等在TD3算法和SAC 算法中分別加入了RNN 循環(huán)神經(jīng)網(wǎng)絡,使模型擁有了一定的記憶和推理能力,能參考前序信息更好地進行機動避障[11]。實驗結果證明了改進算法的有效性,且改進后的SAC 算法收斂速度更快,效果更好。LEI 等采用帶有預訓練專家演示數(shù)據(jù)的TD3 算法進行路徑規(guī)劃,實驗結果顯示,改進后的算法在回合獎勵值,平均成功率等方面都有較大提升,且顯著降低了任務的失敗概率[13]。這3 種算法的狀態(tài)空間和動作空間都是連續(xù)的,與UAV的實際飛行情況更為貼近。

    航跡規(guī)劃問題是一個狀態(tài)空間和動作空間都連續(xù)的問題。大量的研究和實驗表明,具有Actor-Critic 算法框架的PPO、SAC 和TD3 算法能較好地解決此類問題,并且在收斂速度和穩(wěn)定性方面優(yōu)于其他算法。獎勵稀疏是強化學習算法中存在的普遍問題。因此,本文基于智能體與目標區(qū)或最近障礙物幾何距離變化設置連續(xù)獎勵或連續(xù)懲罰,從而引導智能體快速向目標方向運動,并對障礙物進行有效規(guī)避。此外,UAV 在飛行過程中還需要滿足自身飛行約束條件和環(huán)境約束條件,任務較為復雜,直接訓練的難度較大,在單一環(huán)境中往往很難探索到有效動作,使算法的訓練效率大打折扣。本文結合課程學習的方法,將上一個環(huán)境中保存的訓練參數(shù)通過參數(shù)遷移的方式,加載到相應的強化學習算法中進行后續(xù)訓練與學習。分階段、分難度的學習方式,也使智能體在各訓練環(huán)境中的動作探索更廣泛、學習更加充分。因此,本文在此基礎上對3 種算法設置分別進行改進、訓練和比較,分析了各個算法進行二維平面的實時航跡規(guī)劃的優(yōu)點和不足之處。

    1 相關算法

    1.1 SAC 算法

    SAC 算法是HAARNOJA 于2018 年提出的一種無模型的隨機策略深度強化學習算法[12],其結構包括1 個actor 網(wǎng)絡、4 個Critic 網(wǎng)絡(狀態(tài)價值估計V、Target V、狀態(tài)-動作價值估計Q0和Q1網(wǎng)絡)。傳統(tǒng)的強化學習算法僅考慮最大化累計回報項,而SAC 算法同時最大化累計獎勵項和策略分布的熵值項,熵值越大,動作的隨機性越大,降低采樣復雜度的同時提升了算法的探索能力和魯棒性,防止算法過早收斂而產(chǎn)生局部最優(yōu)解。

    其中,R(·)為當前狀態(tài)和動作下的獎勵值項;H(·)為策略π 的熵值項;αH為溫度系數(shù),通過控制αH的大小確定策略分布熵值項的相對重要程度。

    算法1 Soft Actor-Critic初始化參數(shù)images/BZ_138_425_1146_625_1189.png對每個訓練回合執(zhí)行:對每回合中的每一步執(zhí)行:images/BZ_138_314_1289_765_1477.png結束對每個梯度執(zhí)行:images/BZ_138_314_1577_766_1803.png結束結束

    V Critic 網(wǎng)絡更新的均方誤差(MSE)損失函數(shù)為:

    梯度:

    此處梯度為無偏估計,D 表示經(jīng)驗池中的經(jīng)驗數(shù)據(jù)樣本,at'為actor 網(wǎng)絡根據(jù)當前狀態(tài)st生成。使用隨機梯度下降法更新得到的兩個Q-Critic 網(wǎng)絡的參數(shù)是不一樣的,此處取兩個Qθ的最小值進行計算可以顯著加速訓練。

    Q -Critic 網(wǎng)絡的更新同樣是最小化MSE 損失函數(shù):

    梯度:

    Actor 網(wǎng)絡通過最小化KL 散度進行更新:

    其中,Z(·)函數(shù)的作用是將分布進行歸一化。

    將策略用重參數(shù)化技巧表示為帶噪聲的神經(jīng)網(wǎng)絡:

    梯度:

    1.2 課程學習

    課程學習是由BENGIO 提出的一種訓練策略,模仿人類的學習過程,通過設置不同難易程度的課程來加速學習,從簡單的問題學習到的策略遷移到復雜的問題中[14]。該方法被廣泛應用于計算機視覺和自然語言處理等多種場景,以提高各種模型的泛化能力和訓練效率。

    在強化學習算法設計中,采用參數(shù)遷移的方式,把先前訓練環(huán)境中訓練好的模型參數(shù)遷移到當前訓練環(huán)境中來,按任務難易程度進行多場景學習,對算法進行驗證和比較。本文將UAV 航跡規(guī)劃的訓練環(huán)境拆分為多個,不同的環(huán)境對應不同的訓練任務,有不同的訓練目的。第1 個訓練環(huán)境是空曠的自由運動空間,其目的在于使UAV 找到通向目標最近的路徑。第2 個訓練環(huán)境是包含障礙物的空間,在該環(huán)境中,UAV 逐漸學會規(guī)避障礙物并尋找到達目標的最近路徑。

    2 深度強化學習算法設計

    2.1 網(wǎng)絡結構

    本文使用的深度強化學習算法包括3+n 個輸入和1 個輸出,如下頁圖1 所示。網(wǎng)絡的輸入為算法的狀態(tài)空間,是agent 對環(huán)境空間進行觀測得到的信息,是agent 進行動作選擇的依據(jù),包括3 個部分:目標相對位置Pg',agent 相對航程L'以及雷達在n 個方向上障礙物的距離信息PS';網(wǎng)絡的輸出為轉角α。

    圖1 輸入輸出結構圖Fig.1 Input-output structure diagram

    如圖2 所示,SAC 算法的網(wǎng)絡結構包括1 個Actor 網(wǎng)絡、2 個結構相同的Q-Critic 網(wǎng)絡、2 個結構相同的V-Critic 網(wǎng)絡(其中一個為估計網(wǎng)絡,一個為目標網(wǎng)絡),其網(wǎng)絡結構如圖2 所示。Actor 網(wǎng)絡、Q-Critic 網(wǎng)絡和V-Critic 網(wǎng)絡的隱藏層結構相同,均包含3 個隱藏層,每層為512 個節(jié)點的全連接層。Actor 網(wǎng)絡的輸入為agent 所在環(huán)境的當前狀態(tài)st,輸出為轉彎角。Q-Critic 網(wǎng)絡的輸入為st和動作at,輸出為當前狀態(tài)動作對的Q 值。V-Critic 網(wǎng)絡的輸入為st,輸出為當前狀態(tài)值V(st),是對當前狀態(tài)st的價值預測。

    圖2 網(wǎng)絡結構圖Fig.2 Network structure diagram

    2.2 狀態(tài)空間

    2.2.1 目標點的相對位置關系Pg'

    以飛行器坐標系下的目標點位置信息為輸入將更有利于算法學習與目標點之間的相對關系。經(jīng)過坐標系的平移和旋轉變化,將目標點的原位置坐標轉化到以無人飛行器(UAV)為原點,UAV 的飛行方向為y 軸,與y 軸水平垂直方向為x 軸的坐標系中。最后進行數(shù)值歸一化處理,使Pg'各維的取值范圍為[-1,1]。

    其求解步驟如下:

    首先,經(jīng)過坐標系平移變換,將原坐標系原點平移至UAV 重心。

    然后,如圖3 所示,通過旋轉矩陣,將目標點的位置坐標變換到飛行器坐標系上。

    圖3 坐標變換圖Fig.3 Coordinate transformation diagram

    計算公式如下:

    其中,θu為飛行器的航向角;A 為旋轉矩陣。最后,進行坐標數(shù)據(jù)的歸一化處理。

    2.2.2 相對航程L'

    UAV 的飛行航程受最大飛行航程約束。將已飛航程信息與最大飛行航程的比值作為輸入,可防止飛行器由于飛行航程過大或飛行時間過長而導致任務失敗,從而確保飛行器更快接近目標區(qū)域。

    2.2.3 雷達探測信息Ps'

    在強化學習算法中,輸入觀察信息的維度不能過大,否則會導致算法學習速度緩慢,甚至造成神經(jīng)網(wǎng)絡學習困難,很難從輸入中提取到有用的信息。但輸入信息較少則算法的收斂效果將大打折扣。因此,需要在agent 的雷達探測范圍內(nèi)等角度θ取合適數(shù)量的探測方向,并設雷達的最大探測范圍為Dmax=20,返回各方向與環(huán)境邊界、障礙物之間的距離信息Di。

    固定翼無人機只能向前方運動,因此以UAV的飛行方向為基準,在[-90°,90°]范圍內(nèi)的障礙物信息對于UAV 來說更有意義,本文兼顧算法的運算速度和訓練效果,在該范圍內(nèi)按等角度30°取7個雷達探測方向,如下頁圖4 所示。

    圖4 雷達探測模型Fig.4 Radar detection model

    2.3 動作空間

    本文的研究對象為固定翼無人機,因此,其飛行過程中沒有后退的動作。為使實驗盡可能與實際情況相符合,將動作空間設計為連續(xù)動作,控制量為UAV 在航跡點處的轉角大小。受自身氣動特性的影響,UAV 在各航跡點處的水平轉彎角不能超過最大轉彎角的限制,否則會導致飛行器失穩(wěn),造成嚴重后果。如圖5 所示,飛行器的實際轉彎角α 受到最大轉彎角αmax限制。

    圖5 UAV 轉彎角示意圖Fig.5 Schematic diagram of the turning angle of UAV

    假設αmax已知,Ai為航跡段i 在x、y 坐標軸上的方向向量,其表達式為,則UAV 實際轉彎角α 與αmax的關系如下所示:

    在最大轉彎角限制范圍內(nèi),UAV 的轉彎角越小,飛行軌跡的平滑度就越好,但機動性能會相應變差。因此,本文綜合考慮各種因素,限制轉彎角的取值范圍為[-6°,6°]。

    2.4 獎勵函數(shù)

    強化學習的獎勵函數(shù)設置主要需解決稀疏獎勵的問題,該問題廣泛存在于實際應用中。稀疏獎勵是指agent 在探索過程中很難獲得正獎勵,導致算法學習效率低下,難以探索到預定狀態(tài)。本文的獎勵函數(shù)分為3 個部分,并設置連續(xù)獎勵,解決稀疏獎勵的問題。

    2.4.1 漸進獎懲Rd

    設UAV 與目標當前時刻的距離為dt,為引導UAV 向目標運動,當時,表示agent在向目標點運動,給予agent 一個較小的漸進獎懲,其計算公式如下:

    2.4.2 到達獎勵Rar

    為計算方便,本實驗中將目標設定為圓形目標,目標半徑為rg。則當agent 與目標中心的距離時,給予正向獎勵Rar。

    2.4.3 死亡懲罰Rde

    UAV 的威脅源包括:靜態(tài)固定障礙物、預警探測雷達以及防空武器等。與目標處理相似,將障礙物處理為二維圓形障礙物。分別以障礙物的最大半徑、預警探測雷達的最大預警探測范圍和防空武器的最大打擊半徑為威脅圓的半徑rO。當agent 與目標中心的距離或agent 運動觸碰邊界時,給予負向獎勵Rde。

    2.4.4 總獎勵值Rall

    UAV 飛行總獎勵為目標漸進獎勵、到達獎勵與死亡懲罰之和減去基線獎勵(baseline)R0,如式(17)所示。基線獎勵的添加可以讓每步的動作有正有負,更有利于算法學習到優(yōu)秀的動作。

    3 飛行約束條件及參數(shù)設計

    3.1 航跡段相關參數(shù)

    在強化學習算法中,agent 每經(jīng)過一個時間間隔Δt,對應做出一個動作(action),表示完成一步(step)。由于UAV 受自身性能參數(shù)和氣動特性的限制,二維航跡需要滿足最大航程、最大轉彎角、最小航跡段等約束條件。其中,轉彎角α 為算法的動作,其最大轉彎角約束已在動作空間的設計中加以限定。由于UAV在長距離飛行中,多數(shù)時間處于勻速巡航狀態(tài),本文設定UAV 的飛行速度V 大小恒定不變。

    由于飛行器機動性能的限制和慣性的影響,UAV 在飛行過程中不能隨意進行轉彎或連續(xù)轉彎,在改變飛行狀態(tài)之前必須完成一定距離的航跡段飛行,其大小為無人機當前速度下飛行Δt 時間的距離。如式(18)所示,當V 一定時,li的大小由Δt決定,設Δt=1。因此,UAV 每步的航跡段li的長度大小都相等,設定為固定值1 個單位。

    3.2 最大航程相關參數(shù)

    由于UAV 自身攜帶能源有限,且相應任務的時間配給有限,其航程必然受限。因此,UAV 的最大航程應當滿足式(19)。

    其中,Smax表示UAV 燃油限制的最大航程;tmax表示完成任務的最長時間限制。

    3.3 深度強化學習參數(shù)

    本文使用基于PyTorch 搭建的強化學習算法進行訓練優(yōu)化和測試,其算法的參數(shù)設置如表1 所示。

    表1 深度強化學習算法參數(shù)表Table 1 Parameter list of deep reinforcement learning algorithms

    4 實驗與分析

    4.1 實驗環(huán)境設計

    為驗證改進后算法的可行性,本文通過OpenAI的Gym 生成實驗環(huán)境,共設有兩個分步訓練環(huán)境,1個測試環(huán)境,使用PPO 算法、TD3 算法和SAC 算法分別進行優(yōu)化和比較。

    4.1.1 訓練環(huán)境

    第1 個訓練環(huán)境是300×300 的正方形空白封閉區(qū)域,環(huán)境邊緣均設置為不可觸碰的障礙物,正方形內(nèi)部無障礙物,可由agent 自由通行,僅有一個半徑為5 的圓形目標區(qū)域,目標的圓心位置和agent的起始位置是在每回合隨機設置的,如圖6(a)所示。該環(huán)境訓練的目的是使agent 學會找到通往目標區(qū)域的最短路徑。

    圖6 訓練環(huán)境Fig.6 Training environment

    第2 個訓練環(huán)境是300×300 的正方形封閉區(qū)域,環(huán)境邊緣同樣設置為不可觸碰的障礙物,內(nèi)設4個半徑為30 的圓形障礙物,1 個半徑為5 的圓形目標。其中,4 個圓形障礙物的位置分別為(100,100),(100,200),(200,200),(200,100),圓形目標的位置每回合隨機設置,如圖6(b)所示。agent 在第1 個環(huán)境訓練的基礎上,再進行第2 個環(huán)境的訓練,該環(huán)境中的學習任務比第1 個環(huán)境中學習任務更難,agent 最終學會正確躲避障礙物并找到安全通向目標點的最短路徑。

    4.1.2 測試環(huán)境

    如下頁圖7 所示,測試環(huán)境中共設有4 個圓形的障礙物和1 個圓形目標,其分布狀況與訓練環(huán)境不同,但形狀大小相同,以驗證訓練后算法的泛化性和可行性。其中,障礙物的圓心位置分別為(80,80),(220,220),(115,175),(175,115),目標的圓心位置為(280,280)。

    圖7 測試環(huán)境Fig.7 Test environment

    4.2 指標構建

    4.2.1 訓練實驗指標

    在深度強化學習的訓練過程中,主要通過繪制訓練過程的成功率和總獎勵值曲線,來比較算法收斂速度的快慢、收斂穩(wěn)定性的好壞、成功率的高低以及總獎勵值的大小。由于強化學習算法在狀態(tài)下進行的動作探索具有不確定性,導致獎勵值曲線的噪聲較大,不利于進行分析比較,需要進行濾波處理。但若濾波處理過度,則會丟失曲線原有的細節(jié)信息,不易分析曲線之間的差異。因此,在本文的訓練實驗中以50 步為單位,對訓練效果曲線采用滑動平均(moving average)的方法進行平滑處理,輸出最后的訓練曲線圖并進行比較。

    4.2.2 測試實驗指標

    將各算法訓練加載訓練完成的模型,代入測試環(huán)境中進行實驗。本實驗中分別對PPO 算法、SAC算法和TD3 算法進行1 000 回合測試,并統(tǒng)計各算法在測試環(huán)境中的測試結果。對每組測試實驗設置5 個實驗統(tǒng)計指標,分別為:平均成功率、平均獎勵值、平均路徑平滑度、平均航跡長度以及平均規(guī)劃用時。各指標的計算方法如下所示:

    1)平均成功率

    平均成功率是衡量算法泛化性和穩(wěn)定性的關鍵指標,算法在陌生環(huán)境中收斂的平均成功率越高,算法的可靠性越好,泛化性也更好,反之則更差。指標的計算方法如式(20)所示:

    其中,N 為實驗總次數(shù);Ns為實驗成功次數(shù)。

    2)平均獎勵值

    此處以agent 成功完成任務的回合所獲得的平均獎勵來評判算法優(yōu)化航跡的好壞,獎勵值越高,航跡理論上更優(yōu),反之越差。該指標計算公式如下:

    3)平均路徑平滑度

    UAV 進行機動的次數(shù)越少,每次轉彎的角度越小,對飛行器飛行控制系統(tǒng)的要求就越低,規(guī)劃出的航跡相對會更平滑,航跡就更優(yōu)秀。因此,在成功完成任務的前提下,該指標值小的算法更優(yōu)秀。該指標為agent 任務成功回合的轉彎角絕對值之和的平均值,可由式(22)計算得出。

    其中,ai為成功回合中agent 每步的轉彎角;n 為該回合動作的次數(shù),即該回合的步數(shù)。

    4)平均航跡長度

    由于本文中設定UAV 的飛行速度大小恒定不變且每步的時間間隔相同,UAV 在每步的航跡段長度是相等的,即航跡長度與該回合內(nèi)步數(shù)的大小成正比。因此,以成功回合的平均步數(shù)為指標衡量測試過程中UAV 的平均航跡長度。該指標的計算方法如式(23)所示:

    其中,Ss為成功回合中UAV 從起點到目標所經(jīng)歷的步數(shù)。

    5)平均規(guī)劃用時

    由于任務失敗回合的規(guī)劃用時與任務成功回合往往相差較大,為衡量該算法在規(guī)劃成功時的計算速度,該指標僅計算任務成功時每條飛行軌跡的平均規(guī)劃用時,以檢驗算法的實時性。

    其中,Ts為成功回合的算法規(guī)劃用時。

    4.3 訓練實驗

    在訓練實驗中,agent 在每個訓練環(huán)境中各訓練100 萬步。環(huán)境會根據(jù)agent 每步動作的好壞給予一個較小的獎勵值。當agent 遇到以下情形時,表示完成一個回合(episode):1)到達目標,當agent 在最大步數(shù)內(nèi)到達目標區(qū)域范圍內(nèi)時,表示成功完成任務;2)超出航程,當agent 的運行步數(shù)超出最大步數(shù)限制時,表示超出UAV 的最大航程,任務失敗;3)發(fā)生碰撞,當agent 與環(huán)境邊界或預設障礙物發(fā)生觸碰時,UAV 因碰撞墜毀,任務失敗。每個回合結束時,若完成任務,則給較大的正向獎勵,若任務失敗,則給予較大懲罰。

    從下頁圖8(a)和圖8(b)中可以看出,在訓練環(huán)境1 中,PPO、SAC 和TD3 算法都能很快收斂,穩(wěn)定性較好,且收斂得到的獎勵值和成功率差別不大,證明3 種算法都能在空曠環(huán)境中較好地完成尋的任務。但相對而言,SAC 算法收斂的穩(wěn)定性更好,速度都更快,曲線最為平坦,優(yōu)化效果明顯更好。

    圖8 訓練環(huán)境1 指標變化曲線圖Fig.8 Curves of indicator changes in the training environment I

    但在訓練環(huán)境2 中,SAC 算法的收斂速度和穩(wěn)定性更明顯優(yōu)于PPO 算法和TD3 算法,在10 萬步之內(nèi)就能達到較好的收斂效果,曲線波動非常小。PPO 算法的訓練效果最差,從圖9(a)和圖9(b)中可以看出,由于訓練環(huán)境2 中的任務過于復雜,PPO算法沒有訓練形成一個有效模型,訓練前后成功率和獎勵值無明顯變化。TD3 算法的收斂速度比SAC算法慢,約20 萬步才能達到收斂效果,且收斂穩(wěn)定性不如SAC 算法,得到的獎勵值與成功率都比SAC算法低。通過訓練實驗可以看出,PPO 算法比較適合于簡單的訓練任務,對于復雜任務的訓練效果較差;TD3 也有不錯的效果,但依然不如SAC 算法;SAC 算法的訓練效果最好,能較好完成復雜環(huán)境條件下的在線航跡規(guī)劃任務。

    圖9 訓練環(huán)境2 指標變化曲線圖Fig.9 Curves of Indicator changes in the training environment II

    4.4 測試實驗

    測試環(huán)境中各算法的優(yōu)化結果如表2 所示,UAV 航跡圖如圖10(a)、圖10(b)所示。PPO 算法在測試環(huán)境中無法完成該任務,SAC 算法和TD3 算法能夠完成,兩種算法的成功率都為100%,能較好地完成該任務,但SAC 算法規(guī)劃出的航跡更為平滑,機動幅度更小。同樣可以看出,SAC 算法得到的航跡更平滑,且規(guī)劃的航徑距離障礙物更遠而相對更安全。兩種算法單條航跡的計算速度平均值相差無幾,證明兩種算法的計算速度相當且都能滿足UAV的在線航跡規(guī)劃的實時性需求。通過測試實驗可知,SAC 算法得到的航跡更優(yōu)。

    表2 測試實驗各指標數(shù)據(jù)對比Table 2 Comparison of the data of each index of the test experiment

    從訓練實驗和測試實驗的結果中可以看出,SAC 算法在處理陌生復雜環(huán)境條件下的航跡規(guī)劃問題時,在收斂性和泛化性方面都具有更強的能力,能滿足在線航跡規(guī)劃的實時性需求。

    5 結論

    本文根據(jù)UAV 導航任務實時性強的特點,設計連續(xù)獎勵函數(shù)對深度強化學習算法進行改進,解決了強化學習算法獎勵稀疏的問題。并利用課程學習對復雜實驗任務進行分解,降低了任務的學習難度。對比PPO 算法、SAC 和TD3 算法的實驗結果可知,SAC 算法的收斂速度更快,具有更好的路徑平滑效果,在解決該類問題時更具有優(yōu)越性。但算法實時性還不夠好,下一步可以結合其他算法對狀態(tài)空間和獎勵函數(shù)進行改進,加快算法的計算速度。

    猜你喜歡
    動作環(huán)境實驗
    記一次有趣的實驗
    長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
    一種用于自主學習的虛擬仿真環(huán)境
    孕期遠離容易致畸的環(huán)境
    做個怪怪長實驗
    環(huán)境
    動作描寫要具體
    畫動作
    動作描寫不可少
    NO與NO2相互轉化實驗的改進
    亚洲av日韩在线播放| 婷婷色综合大香蕉| 日韩欧美 国产精品| 午夜福利高清视频| 亚洲经典国产精华液单| av福利片在线观看| 不卡视频在线观看欧美| 大香蕉久久网| 精品国产露脸久久av麻豆 | 亚洲av成人精品一二三区| 在线观看一区二区三区| 久久久久久久久大av| 亚洲av成人av| 国产精品精品国产色婷婷| 国精品久久久久久国模美| 精品久久久久久久末码| 亚洲18禁久久av| av天堂中文字幕网| 国产永久视频网站| 精品国产露脸久久av麻豆 | 观看免费一级毛片| 日本免费在线观看一区| 亚洲精品日本国产第一区| 日韩亚洲欧美综合| 91精品伊人久久大香线蕉| 亚洲欧美中文字幕日韩二区| 又爽又黄无遮挡网站| 熟妇人妻不卡中文字幕| 欧美高清成人免费视频www| 全区人妻精品视频| 最新中文字幕久久久久| 深爱激情五月婷婷| 亚洲精品第二区| 久久精品国产鲁丝片午夜精品| 十八禁网站网址无遮挡 | 80岁老熟妇乱子伦牲交| 国产高潮美女av| 日韩欧美三级三区| 日韩欧美精品免费久久| 精品久久久久久成人av| 国产精品.久久久| 亚洲欧美日韩无卡精品| 男女边吃奶边做爰视频| 一本一本综合久久| 国产 一区 欧美 日韩| 国产男女超爽视频在线观看| 亚洲精品日韩av片在线观看| 国产av国产精品国产| 国产精品一二三区在线看| 国产又色又爽无遮挡免| 免费高清在线观看视频在线观看| 超碰av人人做人人爽久久| 建设人人有责人人尽责人人享有的 | 免费观看av网站的网址| 七月丁香在线播放| 嫩草影院入口| av线在线观看网站| 老司机影院毛片| 精品久久久久久久久亚洲| 一级毛片久久久久久久久女| 午夜福利成人在线免费观看| 国产黄片美女视频| 草草在线视频免费看| 听说在线观看完整版免费高清| 国产精品一区www在线观看| videos熟女内射| 99久久九九国产精品国产免费| 2021天堂中文幕一二区在线观| 欧美精品国产亚洲| 亚洲四区av| 别揉我奶头 嗯啊视频| 亚洲国产日韩欧美精品在线观看| 亚洲精品,欧美精品| 国产精品三级大全| 精品人妻熟女av久视频| 熟妇人妻不卡中文字幕| 欧美变态另类bdsm刘玥| 国产精品综合久久久久久久免费| 亚洲精品乱码久久久久久按摩| 青春草亚洲视频在线观看| 亚洲aⅴ乱码一区二区在线播放| 成年女人看的毛片在线观看| 国产在线一区二区三区精| 亚洲欧洲日产国产| 精品酒店卫生间| 国产成人精品一,二区| 嘟嘟电影网在线观看| 亚洲欧美中文字幕日韩二区| 视频中文字幕在线观看| 日韩三级伦理在线观看| 91aial.com中文字幕在线观看| 可以在线观看毛片的网站| 最近2019中文字幕mv第一页| 亚洲av成人av| 亚洲精品成人久久久久久| 人体艺术视频欧美日本| 国产色爽女视频免费观看| 精品久久久久久久末码| 免费av毛片视频| www.av在线官网国产| 亚洲精品日韩av片在线观看| 青春草国产在线视频| 最近最新中文字幕免费大全7| 亚洲av成人精品一二三区| 天堂av国产一区二区熟女人妻| 91精品伊人久久大香线蕉| 草草在线视频免费看| 人体艺术视频欧美日本| 成人午夜精彩视频在线观看| 麻豆精品久久久久久蜜桃| 视频中文字幕在线观看| 久久人人爽人人爽人人片va| 日本熟妇午夜| 亚洲熟女精品中文字幕| 国产黄片视频在线免费观看| 熟妇人妻不卡中文字幕| 欧美日韩综合久久久久久| 亚洲欧美成人综合另类久久久| 观看美女的网站| 色视频www国产| 亚洲无线观看免费| 国产不卡一卡二| 69人妻影院| 国产精品伦人一区二区| 一个人看视频在线观看www免费| 国产三级在线视频| 亚洲精品久久午夜乱码| 亚洲av不卡在线观看| 久久久久久久久久成人| 热99在线观看视频| 美女cb高潮喷水在线观看| 亚洲图色成人| 国产一级毛片七仙女欲春2| 国产一区亚洲一区在线观看| 国产精品一区www在线观看| 精品久久久久久久人妻蜜臀av| 永久网站在线| 精品一区在线观看国产| 国产单亲对白刺激| 伦理电影大哥的女人| 最新中文字幕久久久久| 2021少妇久久久久久久久久久| 最近最新中文字幕大全电影3| 欧美区成人在线视频| 最近最新中文字幕免费大全7| 美女cb高潮喷水在线观看| 国产大屁股一区二区在线视频| 九九在线视频观看精品| 久久久国产一区二区| 高清av免费在线| 成人毛片a级毛片在线播放| 亚洲国产日韩欧美精品在线观看| 观看免费一级毛片| 色尼玛亚洲综合影院| 婷婷色综合www| 国产黄色免费在线视频| 国产一区二区三区综合在线观看 | 欧美不卡视频在线免费观看| 亚洲在线观看片| 亚洲一区高清亚洲精品| 久久久久九九精品影院| 青春草亚洲视频在线观看| 久久久久久伊人网av| 丰满少妇做爰视频| 老女人水多毛片| 免费观看在线日韩| 国产视频首页在线观看| 午夜福利成人在线免费观看| 亚洲欧美一区二区三区黑人 | 国产欧美日韩精品一区二区| 黄片无遮挡物在线观看| 美女cb高潮喷水在线观看| 久久久久久久久中文| 亚洲欧美日韩无卡精品| 国产精品熟女久久久久浪| 少妇的逼水好多| 亚洲精品成人久久久久久| 午夜免费激情av| 国产激情偷乱视频一区二区| 日韩精品有码人妻一区| 精品欧美国产一区二区三| 久久久欧美国产精品| 最新中文字幕久久久久| 国产黄色视频一区二区在线观看| 成人亚洲欧美一区二区av| 丰满人妻一区二区三区视频av| 成人av在线播放网站| 欧美人与善性xxx| 日本wwww免费看| 大香蕉97超碰在线| 高清视频免费观看一区二区 | 啦啦啦韩国在线观看视频| 免费看a级黄色片| 一个人观看的视频www高清免费观看| 丝袜喷水一区| 深夜a级毛片| 午夜老司机福利剧场| 日韩欧美一区视频在线观看 | 九九爱精品视频在线观看| 亚洲电影在线观看av| 色综合站精品国产| 别揉我奶头 嗯啊视频| 91久久精品电影网| 91久久精品国产一区二区成人| 日本一本二区三区精品| 久久国产乱子免费精品| 成人性生交大片免费视频hd| 国产精品一区二区在线观看99 | 国产在线一区二区三区精| 在线观看av片永久免费下载| 超碰av人人做人人爽久久| 国产精品伦人一区二区| 国产探花在线观看一区二区| 国产黄a三级三级三级人| 简卡轻食公司| 天堂网av新在线| 插逼视频在线观看| freevideosex欧美| 狂野欧美激情性xxxx在线观看| 国产人妻一区二区三区在| 直男gayav资源| 内射极品少妇av片p| 少妇丰满av| 亚洲aⅴ乱码一区二区在线播放| 婷婷色av中文字幕| 亚洲精品中文字幕在线视频 | 久久精品国产鲁丝片午夜精品| 欧美一级a爱片免费观看看| 伊人久久精品亚洲午夜| 国产精品一区二区性色av| 高清日韩中文字幕在线| 亚洲婷婷狠狠爱综合网| 亚洲不卡免费看| 女人久久www免费人成看片| 少妇丰满av| 国产成人a∨麻豆精品| 99热这里只有是精品在线观看| 联通29元200g的流量卡| 亚洲av日韩在线播放| 国产精品人妻久久久影院| 国产高清有码在线观看视频| 极品教师在线视频| 内射极品少妇av片p| 亚洲精品成人久久久久久| 一个人观看的视频www高清免费观看| 亚洲人成网站在线播| .国产精品久久| 亚州av有码| 亚洲精品日本国产第一区| 精品国内亚洲2022精品成人| 久久久久久久久久人人人人人人| av国产久精品久网站免费入址| 久久精品国产鲁丝片午夜精品| 91精品一卡2卡3卡4卡| 91aial.com中文字幕在线观看| 青春草亚洲视频在线观看| 好男人在线观看高清免费视频| 亚洲精品国产av蜜桃| 亚洲av中文字字幕乱码综合| 欧美精品一区二区大全| av又黄又爽大尺度在线免费看| 午夜福利视频1000在线观看| av线在线观看网站| 精品国产露脸久久av麻豆 | 一级二级三级毛片免费看| 女的被弄到高潮叫床怎么办| 人人妻人人澡人人爽人人夜夜 | videossex国产| 免费黄频网站在线观看国产| 欧美区成人在线视频| 亚州av有码| 水蜜桃什么品种好| 赤兔流量卡办理| 国产av在哪里看| av卡一久久| 精品亚洲乱码少妇综合久久| 天堂中文最新版在线下载 | 亚洲欧美一区二区三区黑人 | 精品一区二区免费观看| 高清欧美精品videossex| 国产日韩欧美在线精品| 久久热精品热| 美女xxoo啪啪120秒动态图| 久久草成人影院| 在线天堂最新版资源| 又粗又硬又长又爽又黄的视频| 好男人在线观看高清免费视频| 十八禁国产超污无遮挡网站| 永久网站在线| av一本久久久久| 97热精品久久久久久| 建设人人有责人人尽责人人享有的 | av卡一久久| 日本三级黄在线观看| 国产激情偷乱视频一区二区| 国产高潮美女av| 乱人视频在线观看| 国产乱来视频区| 一个人看视频在线观看www免费| 99久久精品热视频| 日本一二三区视频观看| 日韩电影二区| 国产女主播在线喷水免费视频网站 | 午夜福利在线观看吧| 日韩欧美国产在线观看| ponron亚洲| 欧美性感艳星| 久久久久久久大尺度免费视频| 精品不卡国产一区二区三区| 精品午夜福利在线看| 亚洲成人久久爱视频| 搞女人的毛片| 草草在线视频免费看| 久久久久网色| 国产成人一区二区在线| 日韩伦理黄色片| 99久国产av精品国产电影| 欧美日本视频| 久久久久精品久久久久真实原创| 成人av在线播放网站| 国产伦理片在线播放av一区| 又大又黄又爽视频免费| 国产亚洲精品久久久com| 天堂av国产一区二区熟女人妻| 男女下面进入的视频免费午夜| 一区二区三区乱码不卡18| 小蜜桃在线观看免费完整版高清| 亚洲自拍偷在线| 久久久久九九精品影院| 成人综合一区亚洲| 国内少妇人妻偷人精品xxx网站| 激情 狠狠 欧美| 亚洲图色成人| 久久久久久九九精品二区国产| 69人妻影院| 天堂俺去俺来也www色官网 | 男人舔女人下体高潮全视频| 国产精品熟女久久久久浪| 在线播放无遮挡| 久久99热这里只有精品18| 秋霞在线观看毛片| 精品不卡国产一区二区三区| 舔av片在线| 国产免费又黄又爽又色| 日韩欧美精品v在线| 一本久久精品| 赤兔流量卡办理| 久久这里只有精品中国| 久久久色成人| 乱人视频在线观看| 国产片特级美女逼逼视频| 成年女人在线观看亚洲视频 | 国产成人精品一,二区| freevideosex欧美| 免费不卡的大黄色大毛片视频在线观看 | 男人和女人高潮做爰伦理| 中文字幕久久专区| 亚洲精品久久久久久婷婷小说| 淫秽高清视频在线观看| 蜜桃亚洲精品一区二区三区| 九草在线视频观看| 国产精品无大码| 亚洲精品第二区| 亚洲av日韩在线播放| 嫩草影院精品99| 亚洲美女搞黄在线观看| 我的老师免费观看完整版| 偷拍熟女少妇极品色| 亚洲精品一区蜜桃| 国产永久视频网站| 国产黄色小视频在线观看| 80岁老熟妇乱子伦牲交| freevideosex欧美| 精品欧美国产一区二区三| 成人亚洲精品一区在线观看 | 18+在线观看网站| 日韩欧美精品v在线| 久久6这里有精品| 观看免费一级毛片| 一区二区三区高清视频在线| a级毛片免费高清观看在线播放| 久久精品国产鲁丝片午夜精品| 国产极品天堂在线| 午夜免费激情av| 人妻制服诱惑在线中文字幕| 亚洲精品国产成人久久av| 精品亚洲乱码少妇综合久久| 国产午夜精品久久久久久一区二区三区| 久久久久九九精品影院| 亚洲在久久综合| 麻豆国产97在线/欧美| 婷婷色av中文字幕| 高清午夜精品一区二区三区| 国产高清有码在线观看视频| 夜夜爽夜夜爽视频| 少妇被粗大猛烈的视频| 熟女人妻精品中文字幕| 三级经典国产精品| 一级片'在线观看视频| 中文字幕亚洲精品专区| 22中文网久久字幕| 91精品伊人久久大香线蕉| 成人欧美大片| 亚洲欧洲国产日韩| 亚洲精品成人av观看孕妇| 精品不卡国产一区二区三区| 18禁在线播放成人免费| 日韩视频在线欧美| av国产免费在线观看| 亚洲精品日本国产第一区| 亚洲经典国产精华液单| 综合色av麻豆| 国产高清三级在线| 黄片wwwwww| 久久精品国产亚洲网站| 国产精品久久久久久久电影| 免费看美女性在线毛片视频| 亚洲天堂国产精品一区在线| 免费观看a级毛片全部| 国产精品久久久久久精品电影小说 | av免费观看日本| 97精品久久久久久久久久精品| 国产男女超爽视频在线观看| 一级二级三级毛片免费看| 大又大粗又爽又黄少妇毛片口| 亚洲精品乱码久久久久久按摩| 精品国内亚洲2022精品成人| 寂寞人妻少妇视频99o| 两个人视频免费观看高清| 精品久久久久久久久久久久久| 日韩一本色道免费dvd| 国产精品久久视频播放| 国产伦一二天堂av在线观看| 亚洲av福利一区| 别揉我奶头 嗯啊视频| 日本午夜av视频| 国产精品嫩草影院av在线观看| 特级一级黄色大片| 高清av免费在线| 男女那种视频在线观看| 亚洲精品国产av蜜桃| 国产黄片美女视频| 天堂√8在线中文| 女的被弄到高潮叫床怎么办| 精品一区二区三区人妻视频| 国产综合精华液| 99re6热这里在线精品视频| 中国国产av一级| av专区在线播放| 亚洲精品,欧美精品| 精品人妻熟女av久视频| 精品酒店卫生间| 国产精品精品国产色婷婷| 成人美女网站在线观看视频| 精品久久久久久久久亚洲| 建设人人有责人人尽责人人享有的 | 成人一区二区视频在线观看| 夫妻性生交免费视频一级片| 久久精品久久久久久久性| 在线a可以看的网站| 校园人妻丝袜中文字幕| 精品久久久久久久人妻蜜臀av| 国产欧美另类精品又又久久亚洲欧美| 国产精品蜜桃在线观看| 久久99精品国语久久久| 亚洲精品日本国产第一区| 色网站视频免费| 亚洲欧美日韩卡通动漫| 国产伦在线观看视频一区| 国产成人精品婷婷| 别揉我奶头 嗯啊视频| 欧美日韩精品成人综合77777| 成年免费大片在线观看| 99视频精品全部免费 在线| 久久综合国产亚洲精品| 欧美极品一区二区三区四区| 自拍偷自拍亚洲精品老妇| 美女内射精品一级片tv| 欧美激情国产日韩精品一区| 最近最新中文字幕免费大全7| 亚洲不卡免费看| 中文字幕人妻熟人妻熟丝袜美| 大话2 男鬼变身卡| 欧美日韩视频高清一区二区三区二| 中文字幕久久专区| 美女主播在线视频| 日韩一区二区三区影片| 白带黄色成豆腐渣| 一个人免费在线观看电影| av在线老鸭窝| 国产精品福利在线免费观看| 欧美丝袜亚洲另类| 亚洲av二区三区四区| 欧美性猛交╳xxx乱大交人| 可以在线观看毛片的网站| 国产男人的电影天堂91| 又黄又爽又刺激的免费视频.| 亚洲av.av天堂| 国产亚洲av片在线观看秒播厂 | 亚洲精品色激情综合| 精品99又大又爽又粗少妇毛片| 国产亚洲5aaaaa淫片| 欧美3d第一页| 亚洲欧美日韩无卡精品| 蜜桃亚洲精品一区二区三区| 精品人妻视频免费看| 亚洲av电影不卡..在线观看| 国产精品av视频在线免费观看| 亚洲国产精品国产精品| 亚洲欧美成人综合另类久久久| 欧美高清性xxxxhd video| 少妇人妻一区二区三区视频| 国产成人aa在线观看| 亚洲电影在线观看av| 成人无遮挡网站| 亚洲经典国产精华液单| 一级毛片我不卡| 精品久久久久久久人妻蜜臀av| 男女边吃奶边做爰视频| 午夜免费男女啪啪视频观看| 欧美性感艳星| 中文字幕久久专区| 床上黄色一级片| 成年女人在线观看亚洲视频 | 国产成年人精品一区二区| 国产精品麻豆人妻色哟哟久久 | 国产一区有黄有色的免费视频 | 春色校园在线视频观看| 亚洲第一区二区三区不卡| 国产亚洲精品久久久com| 亚洲av日韩在线播放| 久久久久网色| 免费观看av网站的网址| 国产成人a∨麻豆精品| 国产午夜精品论理片| 舔av片在线| 国产探花极品一区二区| xxx大片免费视频| 欧美成人精品欧美一级黄| 婷婷色麻豆天堂久久| 在线免费观看不下载黄p国产| 精品国产露脸久久av麻豆 | 一夜夜www| 99久久精品一区二区三区| 97超视频在线观看视频| 午夜激情欧美在线| 国产高清不卡午夜福利| 性插视频无遮挡在线免费观看| 成年版毛片免费区| 日韩成人av中文字幕在线观看| 80岁老熟妇乱子伦牲交| 日韩强制内射视频| 成人欧美大片| 亚洲内射少妇av| 亚洲av中文字字幕乱码综合| 精品久久国产蜜桃| 国产成人精品一,二区| 七月丁香在线播放| 精品人妻一区二区三区麻豆| 成人国产麻豆网| 内地一区二区视频在线| 国产一区二区在线观看日韩| 干丝袜人妻中文字幕| 边亲边吃奶的免费视频| 日本一二三区视频观看| av在线蜜桃| 国产淫片久久久久久久久| 纵有疾风起免费观看全集完整版 | 真实男女啪啪啪动态图| 精品午夜福利在线看| 看黄色毛片网站| 乱人视频在线观看| 黄色一级大片看看| 国产在视频线精品| 在线观看av片永久免费下载| 建设人人有责人人尽责人人享有的 | 在线免费观看的www视频| 国产成人精品一,二区| 一级毛片电影观看| 亚洲无线观看免费| 欧美激情在线99| 夜夜看夜夜爽夜夜摸| 简卡轻食公司| 亚洲真实伦在线观看| 久久草成人影院| 七月丁香在线播放| 青春草视频在线免费观看| 色综合站精品国产| 一个人看视频在线观看www免费| 男女视频在线观看网站免费| 肉色欧美久久久久久久蜜桃 | 男人狂女人下面高潮的视频| 热99在线观看视频| 国产成人精品一,二区| av一本久久久久| 内射极品少妇av片p| 精品一区在线观看国产| 国产伦在线观看视频一区| 国产高清有码在线观看视频| 欧美区成人在线视频| 国内精品宾馆在线| 22中文网久久字幕| 天堂俺去俺来也www色官网 | 日本爱情动作片www.在线观看| 久久精品国产亚洲av涩爱| 日本免费a在线| 伦理电影大哥的女人| 国产成人a∨麻豆精品| h日本视频在线播放| 性色avwww在线观看| 永久网站在线| 乱系列少妇在线播放| 蜜臀久久99精品久久宅男| 国产视频内射| av免费观看日本|